Pandas实现一列数据分隔为两列

2026-01-24 00:52:02

分割成一个包含两个元素列表的列

对于一个已知分隔符的简单分割（例如，用破折号分割或用空格分割）.str.split() 方法就足够了。它在字符串的列（系列）上运行，并返回列表（系列）。

>>> import pandas as pd
>>> df = pd.DataFrame({'AB': ['A1-B1', 'A2-B2']})
>>> df

  AB
0 A1-B1
1 A2-B2
>>> df['AB_split'] = df['AB'].str.split('-')
>>> df

  AB AB_split
0 A1-B1 [A1, B1]
1 A2-B2 [A2, B2]

分割成两列，每列包含列表的相应元素

下面来看下如何从：分割成一个包含两个元素列表的列至分割成两列，每列包含列表的相应元素。

>>> df['AB'].str[0]

0 A
1 A
Name: AB, dtype: object

>>> df['AB'].str[1]

0 1
1 2
Name: AB, dtype: object

因此可以得到

>>> df['AB'].str.split('-', 1).str[0]

0 A1
1 A2
Name: AB, dtype: object

>>> df['AB'].str.split('-', 1).str[1]

0 B1
1 B2
Name: AB, dtype: object

可以通过如下代码将pandas的一列分成两列：

>>> df['A'], df['B'] = df['AB'].str.split('-', 1).str
>>> df

  AB AB_split A B
0 A1-B1 [A1, B1] A1 B1
1 A2-B2 [A2, B2] A2 B2

补充知识：pandas某一列中每一行拆分成多行的方法

在处理数据过程中，常会遇到将一条数据拆分成多条，比如一个人的地址信息中，可能有多条地址，既有家庭地址也有工作地址，还有电话信息等等类似的情况，实际使用数据的时候又需要分开处理，这个时候就需要将这一条数据进行拆分成多条，以方便使用。

在pandas中如何对DataFrame进行相关操作呢，经查阅相关资料，发现了一个简单的办法，

info.drop(['city'], axis=1).join(info['city'].str.split(' ', expand=True).stack().reset_index(level=1, drop=True).rename('city'))

看起来非常之长，分开来看，流程如下：

将需要拆分的数据使用split拆分工具拆分，并使用expand功能拆分成多列

将拆分后的多列数据进行列转行操作(stack)，合并成一列

将生成的复合索引重新进行reset保留原始的索引,并命名

将上面处理后的DataFrame和原始DataFrame进行join操作，默认使用的是索引进行连接

具体操作如下：

预操作：生成需要使用的DataFrame

# 用来生成DataFrame的工具
from pydbgen import pydbgen
myDB=pydbgen.pydb()

# 生成一个DataFrame
info = myDB.gen_dataframe(10,['name','phone','city','state'])

结果如下：

	name	phone-number	city	state
0	Hannah Richard	810-859-7815	Irwinville	Louisiana
1	Ronald Berry	591-564-0585	Glen Ellen	Minnesota
2	Caitlin Barron	969-840-8580	Dubois	Oklahoma
3	Felicia Stephens	154-858-1233	Veedersburg	Alaska
4	Shelly Dennis	343-104-9365	Mattapex	Virginia
5	Nicholas Hill	992-239-1954	Moneta	Minnesota
6	Steve Bradshaw	164-081-7811	Ten Broeck	Colorado
7	Gail Johnston	155-259-9514	Wayan	Virginia
8	John Gray	409-892-4716	Darlington	Pennsylvania
9	Katherine Bautista	185-861-1677	McNab	Texas

假如现在我们要对city列进行进行拆分，按照空格拆分，转换成多行的数据，
第一步：拆分，生成多列

info_city = info['city'].str.split(' ', expand=True)

结果如下：

	0	1
0	Irwinville	None
1	Glen	Ellen
2	Dubois	None
3	Veedersburg	None
4	Mattapex	None
5	Moneta	None
6	Ten	Broeck
7	Wayan	None
8	Darlington	None
9	McNab	None

可以看到已经将原始数据拆分成了2列，对于无法拆分的数据为None

第二步：行转列

info_city = info_city.stack()

结果如下：


0	0	Irwinville
1	0	Glen
	1	Ellen
2	0	Dubois
3	0	Veedersburg
4	0	Mattapex
5	0	Moneta
6	0	Ten
	1	Broeck
7	0	Wayan
8	0	Darlington
9	0	McNab

其中前面两列是索引，返回的是一个series，没有名字的series

第三步：重置索引，并命名（并删除多于的索引）

info_city = info_city.reset_index(level=1, drop=True)

结果如下：


0	Irwinville
1	Glen
1	Ellen
2	Dubois
3	Veedersburg
4	Mattapex
5	Moneta
6	Ten
6	Broeck
7	Wayan
8	Darlington
9	McNab

第四步：和原始数据合并

info_new = info.drop(['city'], axis=1).join(info_city)

结果如下：

	name	phone-number	state	city
0	Hannah Richard	810-859-7815	Louisiana	Irwinville
1	Ronald Berry	591-564-0585	Minnesota	Glen
1	Ronald Berry	591-564-0585	Minnesota	Ellen
2	Caitlin Barron	969-840-8580	Oklahoma	Dubois
3	Felicia Stephens	154-858-1233	Alaska	Veedersburg
4	Shelly Dennis	343-104-9365	Virginia	Mattapex
5	Nicholas Hill	992-239-1954	Minnesota	Moneta
6	Steve Bradshaw	164-081-7811	Colorado	Ten
6	Steve Bradshaw	164-081-7811	Colorado	Broeck
7	Gail Johnston	155-259-9514	Virginia	Wayan
8	John Gray	409-892-4716	Pennsylvania	Darlington
9	Katherine Bautista	185-861-1677	Texas	McNab

需要特别注意的是，需要使用原始的连接新生成的，因为新生成的是一个series没有join方法，也可以通过将生成的series通过to_frame方法转换成DataFrame，这样就没有什么差异了

写了这么多，记住下面的就行了：

info.drop([‘city'], axis=1).join(info[‘city'].str.split(' ', expand=True).stack().reset_index(level=1, drop=True).rename(‘city'))

如果原数据中已经是list了，可以将info[‘city'].str.split(' ', expand=True)这部分替换成info[‘city'].apply(lambda x: pd.Series(x))，就可以达到相同的目的。

以上这篇Pandas实现一列数据分隔为两列就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

Python DataFrame一列拆成多列以及一行拆成多行

摘要在进行数据分析时,我们经常需要把DataFrame的一列拆成多列或者根据某列把一行拆成多行,这篇文章主要讲解这两个目标的实现. 1.读取数据 2.将City列转成多列(以'|'为分隔符) 这里使用匿名函数lambda来讲City列拆成两列. 3.将DataFrame一行拆成多行(以'|'为分隔符) 方法一:在刚刚得到的DataFrame基础上操作,如下图所以,可以明显看到我们按照City列将DataFrame拆成了多行.主要是先将DataFrame拆成多列,然后拆成多个DataFrame再
pandas 使用apply同时处理两列数据的方法

多的不说,看了代码就懂了! df = pd.DataFrame ({'a' : np.random.randn(6), 'b' : ['foo', 'bar'] * 3, 'c' : np.random.randn(6)}) def my_test(a, b): return a + b df['Value'] = df.apply(lambda row: my_test(row['a'], row['c']), axis=1) print df 以上这篇pandas 使用apply同时处理两列
pandas对dataFrame中某一个列的数据进行处理的方法

背景:dataFrame的数据,想对某一个列做逻辑处理,生成新的列,或覆盖原有列的值下面例子中的df均为pandas.DataFrame()的数据 1.增加新列,或更改某列的值 df["列名"]=值如果值为固定的一个值,则dataFrame中该列所有值均为这个数据 2.处理某列 df["列名"]=df.apply(lambda x:方法名(x,入参2),axis=1) 说明: 1.方法名为单独的方法名,可以处理传入的x数据 2.x为每一行的数据,做为方法的入参1
Pandas实现一列数据分隔为两列

分割成一个包含两个元素列表的列对于一个已知分隔符的简单分割(例如,用破折号分割或用空格分割).str.split() 方法就足够了 . 它在字符串的列(系列)上运行,并返回列表(系列). >>> import pandas as pd >>> df = pd.DataFrame({'AB': ['A1-B1', 'A2-B2']}) >>> df AB 0 A1-B1 1 A2-B2 >>> df['AB_split'] = df[
详解Pandas如何高效对比处理DataFrame的两列数据

目录楔子 combine_first combine update 楔子我们在用 pandas 处理数据的时候,经常会遇到用其中一列数据替换另一列数据的场景.比如 A 列和 B 列,对 A 列中不为空的数据不作处理,对 A 列中为空的数据使用 B 列对应索引的数据进行替换.这一类的需求估计很多人都遇到,当然还有其它更复杂的. 解决这类需求的办法有很多,这里我们来推荐几个. combine_first 这个方法是专门用来针对空值处理的,我们来看一下用法. import pandas as pd
pandas将DataFrame的几列数据合并成为一列

目录 1.1 方法归纳 1.2 .str.cat函数详解 1.2.1 语法格式: 1.2.2 参数说明: 1.2.3 核心功能: 1.2.4 常见范例: 1.1 方法归纳使用 + 直接将多列合并为一列(合并列较少): 使用pandas.Series.str.cat方法,将多列合并为一列(合并列较多): 范例如下: dataframe["newColumn"] = dataframe["age"].map(str) + dataframe["phone&q
pandas 实现将两列中的较大值组成新的一列

最近一个开发需求中要求用pandas实现该需求: 逐行对比两列,选出每行两列中较大的值加到第三列翻了下好像没有类似的函数,所以没办法要自己造轮子,直接上代码和注释 # 需要对比的值为value_x和value_y # 新家的列名为value_final # 1.设置一个flag,值为value_y-value_x,为正代表y较大,负代表x较大 df_test['value_flag'] = df_test['Value_y'] - df_test['Value_x'] # 2.分别取得y较大的
pandas 选取行和列数据的方法详解

前言本文介绍在 pandas 中如何读取数据行列的方法.数据由行和列组成,在数据库中,一般行被称作记录 (record),列被称作字段 (field).回顾一下我们对记录和字段的获取方式:一般情况下,字段根据名称获取,记录根据筛选条件获取.比如获取 student_id 和 studnent_name 两个字段:记录筛选,比如 sales_amount 大于 10000 的所有记录.对于熟悉 SQL 语句的人来说,就是下面的语句: select student_id, student_name
pandas 对每一列数据进行标准化的方法

两种方式 >>> import numpy as np >>> import pandas as pd Backend TkAgg is interactive backend. Turning interactive mode on. >>> np.random.seed(1) >>> df_test = pd.DataFrame(np.random.randn(4,4)* 4 + 3) >>> df_test 0
python pandas库读取excel/csv中指定行或列数据

目录引言 1.根据index查询 2.已知数据在第几行找到想要的数据 3.根据条件查询找到指定行数据 4.找出指定列 5.找出指定的行和指定的列 6.在规定范围内找出符合条件的数据总结引言关键!!!!使用loc函数来查找. 话不多说,直接演示: 有以下名为try.xlsx表: 1.根据index查询条件:首先导入的数据必须的有index 或者自己添加吧,方法简单,读取excel文件时直接加index_col 代码示例: import pandas as pd #导入pandas库 ex
mysql 实现互换表中两列数据方法简单实例

由于最近项目,有这样一个需求,是把数据库中的两列数据互换,经过好久才搞定,这里写个简单实例,做过记录. 1.创建表及记录用于测试 CREATE TABLE `product` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT COMMENT '产品id', `name` varchar(50) NOT NULL COMMENT '产品名称', `original_price` decimal(5,2) unsigned NOT NULL COMMEN
pandas数据框,统计某列数据对应的个数方法

现在要解决的问题如下: 我们有一个数据的表第7列有许多数字,并且是用逗号分隔的,数字又有一个对应的关系: 我们要得到第7列对应关系的统计,就是每一行的第7列a有多少个,b有多少个好了,我给的解决方法如下: #!/bin/python #-*-coding:UTF-8-*- import pandas as pd import numpy as np dfidspec = pd.read_table("one.txt")#这个是对应关系的文件 dfmgs = pd.read_tabl

Pandas实现一列数据分隔为两列

相关推荐

随机推荐