使用pandas忽略行列索引,纵向拼接多个dataframe

从wind上面搞到一批股票数据后发现:本来是一个类型的数据,但是由于季度不同,列名也不同,导致使用pandas合并多个报表的时候总是出现一大堆NaN,所以这里我写了一个函数,专门针对这样的表

它的思路是:

生成一堆单词,然后把这些表的列索引全部替换为这些单词,然后调用 pd.concat() 把这些dataframe全部合并后再把列索引改回来,当然,这里也可以手动指定列索引。

使用方法见代码的最后一行,传入一个dataframe的list就可以了。

import pandas as pd
from random import Random 

# 随机生成一堆单词作为公共的列名
def random_list(random_str_count, randomlengtd=6):
 result_list = []
 random = Random()
 chars = "qwertyuiopasdfghjklzxcvbnm"
 for str_count in range(random_str_count):
 ranstr = ""
 lengtd = len(chars) - 1
 for str_lengtd in range(randomlengtd):
 ranstr += chars[random.randint(0, lengtd)]
 result_list.append(ranstr)
 return result_list 

def combine_as_data_location(pd_list, columns=''):
 if not pd_list:
 return None
 old_columns = pd_list[0].columns
 if columns:
 new_columns = columns
 else:
 new_columns = random_list(pd_list[0].shape[1])
 for data_df in pd_list:
 # data is pandas Dataframe
 data_df.columns = new_columns
 result_df = pd.concat(pd_list, ignore_index=True)
 if columns:
 return result_df
 else:
 result_df.columns = old_columns
 return result_df
result_df = combine_as_data_location([df1,df2,df3])

补充:pandas.concat实现竖着拼接、横着拼接DataFrame

1、concat竖着拼接(默认的竖着,axis=0)

话不多说,直接看例子:

import pandas as pd
df1=pd.DataFrame([10,12,13])
df2=pd.DataFrame([22,33,44,55])
df3=pd.DataFrame([90,94])

df1

0
0 10
1 12
2 13

df2

0
0 22
1 33
2 44
3 55

df3

0
0 90
1 94
res= pd.concat([df1,df2,df3])
res
0
0 10
1 12
2 13
0 22
1 33
2 44
3 55
0 90
1 94

如果要生成新索引,忽略原来索引怎么办?

默认有个参数ignore_index= False,将其值改为True:

res2= pd.concat([df1,df2,df3], ignore_index=True)
res2
0
0 10
1 12
2 13
3 22
4 33
5 44
6 55
7 90
8 94

2、concat横着拼接

用参数axis= 1,看例子:

res_heng= pd.concat([df1,df2,df3], axis=1)
res_heng
0 0 0
0 10.0 22 90.0
1 12.0 33 94.0
2 13.0 44 NaN
3 NaN 55 NaN

以上为个人经验,希望能给大家一个参考,也希望大家多多支持我们。如有错误或未考虑完全的地方,望不吝赐教。

(0)

相关推荐

  • pandas组内排序,并在每个分组内按序打上序号的操作

    问题: pandas组内排序,并在每个分组内按序打上序号 描述: pandas dataframe 对dep_id组内的salary排序.希望给下面原本只有前三列的dataframe,添加上第四列. 等价于sql里的排序函数 row_number() over() 功能 假设我已经建好了仅有前三列的dataframe,数据集命名为 MyData, 解决方案如下: MyData['sort_id'] = MyData['salary'].groupby(MyData['dep_id']).rank

  • Pandas groupby apply agg 的区别 运行自定义函数说明

    agg 方法将一个函数使用在一个数列上,然后返回一个标量的值.也就是说agg每次传入的是一列数据,对其聚合后返回标量. 对一列使用三个函数: 对不同列使用不同函数 apply 是一个更一般化的方法:将一个数据分拆-应用-汇总.而apply会将当前分组后的数据一起传入,可以返回多维数据. 实例: 1.数据如下: lawsuit2[['EID','LAWAMOUNT','LAWDATE']] 2.groupby后应用apply传入函数数据如下: lawsuit2[['EID','LAWAMOUNT'

  • pandas分组排序 如何获取第二大的数据

    Python用来做数据分析很方便,网上很多关于找数据中第二大的方法,但是大多数都是关于SQL的,于是我挑战一下用Python来做这件事(主要是SQL写的不好>_<),上代码. 1.数据我是自己编的 在实际工作中应该从数据库中导入数据,如何从数据库导出数据,我之后会补充. import pandas as pd df = pd.DataFrame([ {"class": 1, "name": "aa", "english&qu

  • pandas groupby分组对象的组内排序解决方案

    问题: 根据数据某列进行分组,选择其中另一列大小top-K的的所在行数据 解析: 求解思路很清晰,即先用groupby对数据进行分组,然后再根据分组后的某一列进行排序,选择排序结果后的top-K结果 案例: 取一下dataframe中B列各对象中C值最高所在的行 df = pd.DataFrame({"A": [2, 3, 5, 4], "B": ['a', 'b', 'b', 'a'], "C": [200801, 200902, 200704

  • pandas group分组与agg聚合的实例

    如下: import pandas as pd df = pd.DataFrame({'Country':['China','China', 'India', 'India', 'America', 'Japan', 'China', 'India'], 'Income':[10000, 10000, 5000, 5002, 40000, 50000, 8000, 5000], 'Age':[5000, 4321, 1234, 4010, 250, 250, 4500, 4321]}) 构造的数

  • pandas 实现将两列中的较大值组成新的一列

    最近一个开发需求中要求用pandas实现该需求: 逐行对比两列,选出每行两列中较大的值加到第三列 翻了下好像没有类似的函数,所以没办法要自己造轮子,直接上代码和注释 # 需要对比的值为value_x和value_y # 新家的列名为value_final # 1.设置一个flag,值为value_y-value_x,为正代表y较大,负代表x较大 df_test['value_flag'] = df_test['Value_y'] - df_test['Value_x'] # 2.分别取得y较大的

  • pandas DataFrame实现几列数据合并成为新的一列方法

    问题描述 我有一个用于模型训练的DataFrame如下图所示: 其中的country.province.city.county四列其实是位置信息的不同层级,应该合成一列用于模型训练 方法: parent_teacher_data['address'] = parent_teacher_data['country']+parent_teacher_data['province']+parent_teacher_data['city']+parent_teacher_data['county'] 就

  • 使用pandas忽略行列索引,纵向拼接多个dataframe

    从wind上面搞到一批股票数据后发现:本来是一个类型的数据,但是由于季度不同,列名也不同,导致使用pandas合并多个报表的时候总是出现一大堆NaN,所以这里我写了一个函数,专门针对这样的表 它的思路是: 生成一堆单词,然后把这些表的列索引全部替换为这些单词,然后调用 pd.concat() 把这些dataframe全部合并后再把列索引改回来,当然,这里也可以手动指定列索引. 使用方法见代码的最后一行,传入一个dataframe的list就可以了. import pandas as pd fro

  • 对pandas的行列名更改与数据选择详解

    记录一些pandas选择数据的内容,此前首先说行列名的获取和更改,以方便获取数据.此文作为学习巩固. 这篇博的内容顺序大概就是: 行列名的获取 -> 行列名的更改 -> 数据选择 一.pandas的行列名获取和更改 1. 获取: df.index() df.columns() 首先,举个例子,做一个DataFrame如下: >>>import pandas as pd >>>import numpy as np >>>data = pd.D

  • pandas抽取行列数据的几种方法

    取行和列的几种常用方式: data[ 列名 ]: 取单列或多列,不能用连续方式取,也不能用于取行. data.列名: 只用于取单列,不能用于行. data[ i:j ]: 用起始行下标(i)和终止行下标(j)取单行或者连续多行,不能用于列的选取. data.loc[行名,列名]: 用对象的.loc[]方法实现各种取数据方式. data.iloc[行下标,列下标]: 用对象的.iloc[]方法实现各种取数据方式. 首先生成一个DataFrame对象: import pandas as pd sco

  • Pandas读取行列数据最全方法

    1.读取方法有按行(单行,多行连续,多行不连续),按列(单列,多列连续,多列不连续):部分不连续行不连续列:按位置(坐标),按字符(索引):按块(list):函数有 df.iloc(), df.loc(), df.iat(), df.at(), df.ix(). 2.转换为DF,赋值columns,index,修改添加数据,取行列索引 data = {'省份': ['北京', '上海', '广州', '深圳'], '年份': ['2017', '2018', '2019', '2020'], '

  • pandas数据的合并与拼接的实现

    目录 1. Merge方法 1.1 内连接 1.2 外连接 1.3 左连接 1.4 右连接 1.5 基于多列的连接算法 1.6 基于index的连接方法 2. join方法 3. concat方法 3.1 series类型的拼接方法 3.2 dataframe类型的拼接方法 4. 小结 Pandas包的merge.join.concat方法可以完成数据的合并和拼接,merge方法主要基于两个dataframe的共同列进行合并,join方法主要基于两个dataframe的索引进行合并,concat

  • Pandas reindex重置索引的使用

    目录 重置行列标签 填充元素值 限制填充行数 重命名标签 重置索引(reindex)可以更改原 DataFrame 的行标签或列标签,并使更改后的行.列标签与 DataFrame 中的数据逐一匹配.通过重置索引操作,您可以完成对现有数据的重新排序.如果重置的索引标签在原 DataFrame 中不存在,那么该标签对应的元素值将全部填充为 NaN. 重置行列标签 看一组简单示例: import pandas as pd import numpy as np N=20 df = pd.DataFram

  • Pandas GroupBy对象 索引与迭代方法

    如下所示: import pandas as pd df = pd.DataFrame({'性别' : ['男', '女', '男', '女', '男', '女', '男', '男'], '成绩' : ['优秀', '优秀', '及格', '差', '及格', '及格', '优秀', '差'], '年龄' : [15,14,15,12,13,14,15,16]}) GroupBy=df.groupby("性别") GroupBy.iter() GroupBy对象是一个迭代对象,每次迭代

  • 对Pandas MultiIndex(多重索引)详解

    创建多重索引 In [16]: df = pd.DataFrame(np.random.randn(3, 8), index=['A', 'B', 'C'], columns=index) In [17]: df Out[17]: first bar baz foo qux \ second one two one two one two one A 0.895717 0.805244 -1.206412 2.565646 1.431256 1.340309 -1.170299 B 0.4108

  • pandas重新生成索引的方法

    在数据处理的过程中,出现了这样的问题,筛选某些数据,出现索引从600多开始,但是我希望这行数据下标从0开始. 这个时候,我想到的是: df.reindex(range(length)) 但是查看一下数据之后,发现0-624之间的值全为Nan,显然不是我需要的数据. 最后找到了说明: pandas调用reindex方法后净会根据新索引进行重排,如果某个索引值当前不存在,就会引入 缺失值:可以通过fill_value参数填充默认值,也可以通过method参数设置填充方法: 感谢身边同事的帮助,找到了

  • 对pandas的层次索引与取值的新方法详解

    1.层次索引 1.1 定义 在某一个方向拥有多个(两个及两个以上)索引级别,就叫做层次索引. 通过层次化索引,pandas能够以较低维度形式处理高纬度的数据 通过层次化索引,可以按照层次统计数据 层次索引包括Series层次索引和DataFrame层次索引 1.2 Series的层次索引 import numpy as np import pandas as pd s1 = pd.Series(data=[99, 80, 76, 80, 99], index=[['2017', '2017',

随机推荐