pandas DataFrame 赋值的注意事项说明(index)

2025-02-19 06:16:13

一 pandas DataFrame一列赋值问题

说明，把b的列赋值给a

情况1：a,b index设置相同

如下代码

import pandas as pd
import numpy as np
a = pd.DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('wxyz'))
b = pd.DataFrame(np.array([11,22,33,44]),index=list('abcd'),columns=['m'])
a['m'] = b['m']
print(a)

上述代码结果如下

  w  x  y  z  m
a  0  1  2  3 11
b  4  5  6  7 22
c  8  9 10 11 33
d 12 13 14 15 44

情况一是最基本的情况，结果也符合预期，之所以符合预期是因为a,b都设有同样的index，赋值操作按照index来到。如果b不设置Index，而是使用默认的index呢？

情况2：b的index采用默认值

代码如下

import pandas as pd
import numpy as np
a = pd.DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('wxyz'))
b = pd.DataFrame(np.array([11,22,33,44]),columns=['m'])
a['m'] = b['m']
print(a)

结果如下

  w  x  y  z  m
a  0  1  2  3 NaN
b  4  5  6  7 NaN
c  8  9 10 11 NaN
d 12 13 14 15 NaN

情况二，结果超出了想象，b中的index为0，1，2，3与a中的index（‘a',‘b',‘c',‘d'）不同，在赋值的过程中，是按照a中的index在b中找index相同位置的值，由于index不同，因此，给a赋值为NaN

情况三 : b中的部分Index与a中的相同

代码如下

import pandas as pd
import numpy as np
a = pd.DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('wxyz'))
b = pd.DataFrame(np.array([11,22,33,44]),index=list('arpb'),columns=['m'])
a['m'] = b['m']
print(a)

结果如下

  w  x  y  z   m
a  0  1  2  3 11.0
b  4  5  6  7 44.0
c  8  9 10 11  NaN
d 12 13 14 15  NaN

由情况三结果可知，只有Index相同的行，赋值才能成功

总结：

从以上可以看出，Pandas DataFrame严格按照Index进行赋值，如果Index不同的话，则赋值为NaN

补充：python编程过程中DataFrame修改特定单元格值后原数据不变的一个解决方案

最近在参加了一个比赛，里面设计到数据清洗的工作，需要对一些异常值作出修改，往常我都是这样操作的

df[condition]['column'].iloc[0:3] = ......

或者

df[condition]['column'][0:3] = ......

里面condition代表满足条件的逻辑表达式，column表示列名

一般还是管用的，但偶尔会出现错误，主要是df[condition]这种表达在python里面是不够规范的，因此运行以后单元格容易赋值失败。在尝试了很多种方法之后，最后还是使用规范的loc或者iloc表达

df.loc[[row condition],['column']] = ......

例如：

NA.loc[[23,29,49],'北美整体规模'] = ......

或者

df.iloc[np.where(condition),[1:3]]

注意loc里面接的是具体的行列名称，iloc里面接的是满足条件的行列名称所对应的位置数字列表，切忌弄混！

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。如有错误或未考虑完全的地方，望不吝赐教。

使用pandas忽略行列索引,纵向拼接多个dataframe

从wind上面搞到一批股票数据后发现:本来是一个类型的数据,但是由于季度不同,列名也不同,导致使用pandas合并多个报表的时候总是出现一大堆NaN,所以这里我写了一个函数,专门针对这样的表它的思路是: 生成一堆单词,然后把这些表的列索引全部替换为这些单词,然后调用 pd.concat() 把这些dataframe全部合并后再把列索引改回来,当然,这里也可以手动指定列索引. 使用方法见代码的最后一行,传入一个dataframe的list就可以了. import pandas as pd fro
pandas.DataFrame 根据条件新建列并赋值的方法

实例如下所示: import numpy as np import pandas as pd data = {'city': ['Beijing', 'Shanghai', 'Guangzhou', 'Shenzhen', 'Hangzhou', 'Chongqing'], 'year': [2016,2016,2015,2017,2016, 2016], 'population': [2100, 2300, 1000, 700, 500, 500]} frame = pd.DataFrame(
浅谈Pandas dataframe数据处理方法的速度比较

数据修改主要以增删改差为主,这里比较几种写法在数据处理时间上的巨大差别. 数据量大概是500万行级别的数据,文件大小为100M. 1.iloc iloc是一种速度极其慢的写法.这里我们对每个csv文件中的每一行循环再用iloc处理,示例代码如下: for index in range(len(df)): df.iloc['attr'][index] = xxx 使用这种方法对五百万行的数据进行处理大概需要5个小时,实在是很慢. 2.at at相比于iloc有了很大的性能提升,也是for循环处理,
Pandas.DataFrame转置的实现原创

简述 Motivation sometimes,换一种获取数据的方式,可以提高数据获取的速度. sometimes,由于预计爬取的数据长度不确定,只能这么先存储起来. sometimes,有个给你的数据就是这样,但是没办法很方便的使用 - 这些情况下,你可能就会需要遇到DataFrame行列转置的方法. Contribution 提供了Pandas.DataFrame的行列转置的方法实验部分导入包 >>> import pandas as pd 创建数据 >>> d
详解pandas中利用DataFrame对象的.loc[]、.iloc[]方法抽取数据

pandas的DataFrame对象,本质上是二维矩阵,跟常规二维矩阵的差别在于前者额外指定了每一行和每一列的名称.这样内部数据抽取既可以用"行列名称(对应.loc[]方法)",也可以用"矩阵下标(对应.iloc[]方法)"两种方式进行. 下面具体说明: (以下程序均在Jupyter notebook中进行,部分语句的print()函数省略) 首先生成一个DataFrame对象: import pandas as pd score = [[34,67,87],[68
对pandas将dataframe中某列按照条件赋值的实例讲解

在数据处理过程中,经常会出现对某列批量做某些操作,比如dataframe df要对列名为"values"做大于等于30设置为1,小于30设置为0操作,可以这样使用dataframe的apply函数来实现, 具体实现代码如下: def fun(x): if x >= 30: return 1 else: return 0 values= feature['values'].apply(lambda x: fun(x)) 具体的逻辑可以修改fun函数来实现,但是按照某些条件选择列不是
Pandas中两个dataframe的交集和差集的示例代码

创建测试数据: import pandas as pd import numpy as np #Create a DataFrame df1 = { 'Subject':['semester1','semester2','semester3','semester4','semester1', 'semester2','semester3'], 'Score':[62,47,55,74,31,77,85]} df2 = { 'Subject':['semester1','semester2','s
Pandas中DataFrame交换列顺序的方法实现

一.获取DataFrame列标签 import pandas as pd file_path = '/Users/Arithmetic/da-rnn-master/data/collectd67_power_after_test_smooth.csv' dataset = pd.read_csv(file_path) cols = list(dataset) ['ps_state-stopped', 'ps_state-running', 'ps_state-blocked', 'ps_stat
pandas DataFrame 赋值的注意事项说明(index)

一 pandas DataFrame一列赋值问题说明,把b的列赋值给a 情况1:a,b index设置相同如下代码 import pandas as pd import numpy as np a = pd.DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('wxyz')) b = pd.DataFrame(np.array([11,22,33,44]),index=list('abcd'),column
Python pandas.DataFrame调整列顺序及修改index名的方法

1. 从字典创建DataFrame >>> import pandas >>> dict_a = {'user_id':['webbang','webbang','webbang'],'book_id':['3713327','4074636','26873486'],'rating':['4','4','4'],'mark_date':['2017-03-07','2017-03-07','2017-03-07']} >>> df = pandas.
删除python pandas.DataFrame 的多重index实例

如下dataframe想要删除多层index top1000[:10] name sex births year prop year sex 1880 F 0 Mary F 7065 1880 0.077643 1 Anna F 2604 1880 0.028618 2 Emma F 2003 1880 0.022013 3 Elizabeth F 1939 1880 0.021309 4 Minnie F 1746 1880 0.019188 5 Margaret F 1578 1880 0.
Pandas.DataFrame重置Series的索引index(reset_index)

目录使用reset_index()将索引重新分配给序列号基本用法删除原始索引:参数drop 更改原始对象:参数inplace 使用reset_index()和set_index()将索引更改为另一列(重置) 如果使用reset_index()方法,则可以将pandas.DataFrame,pandas.Series的索引索引(行名称,行标签)重新分配为从0开始的序列号(行号). 如果将行号用作索引,则通过排序更改行的顺序或删除行并得到缺少的号码时,重新索引会更容易. 当行名(行标签)用作索
python中pandas.DataFrame的简单操作方法（创建、索引、增添与删除）

前言最近在网上搜了许多关于pandas.DataFrame的操作说明,都是一些基础的操作,但是这些操作组合起来还是比较费时间去正确操作DataFrame,花了我挺长时间去调整BUG的.我在这里做一些总结,方便你我他.感兴趣的朋友们一起来看看吧. 一.创建DataFrame的简单操作: 1.根据字典创造: In [1]: import pandas as pd In [3]: aa={'one':[1,2,3],'two':[2,3,4],'three':[3,4,5]} In [4]: bb=
python pandas dataframe 行列选择,切片操作方法

SQL中的select是根据列的名称来选取:Pandas则更为灵活,不但可根据列名称选取,还可以根据列所在的position(数字,在第几行第几列,注意pandas行列的position是从0开始)选取.相关函数如下: 1)loc,基于列label,可选取特定行(根据行index): 2)iloc,基于行/列的position: 3)at,根据指定行index及列label,快速定位DataFrame的元素: 4)iat,与at类似,不同的是根据position来定位的: 5)ix,为loc与i
将pandas.dataframe的数据写入到文件中的方法

导入实验常用的python包.如图2所示. [import pandas as pd]pandas用来做数据处理.[import numpy as np]numpy用来做高维度矩阵运算.[import matplotlib.pyplot as plt]matplotlib用来做数据可视化. pandas数据写入到csv文件中: [names = ['Bob','Jessica','Mary','John','Mel']]创建一个names列表[ births = [968,155,77,578,
Python pandas DataFrame操作的实现代码

1. 从字典创建Dataframe >>> import pandas as pd >>> dict1 = {'col1':[1,2,5,7],'col2':['a','b','c','d']} >>> df = pd.DataFrame(dict1) >>> df col1 col2 0 1 a 1 2 b 2 5 c 3 7 d 2. 从列表创建Dataframe (先把列表转化为字典,再把字典转化为DataFrame) >
pandas DataFrame创建方法的方式

在pandas里,DataFrame是最经常用的数据结构,这里总结生成和添加数据的方法: ①.把其他格式的数据整理到DataFrame中: ②在已有的DataFrame中插入N列或者N行. 1. 字典类型读取到DataFrame(dict to DataFrame) 假如我们在做实验的时候得到的数据是dict类型,为了方便之后的数据统计和计算,我们想把它转换为DataFrame,存在很多写法,这里简单介绍常用的几种: 方法一:直接使用pd.DataFrame(data=test_dict)即可,

pandas DataFrame 赋值的注意事项说明(index)

情况1：a,b index设置相同

情况2：b的index采用默认值

情况三 : b中的部分Index与a中的相同

总结：

相关推荐

随机推荐