Pandas 同元素多列去重的实例
有一些问题可能会遇到同元素多列去重问题,下面介绍一种非常简单效率也很快的做法,用pandas来实现。
首先我们看一下数据类型:
G1 G2 a b b a c d d c e f
对这样的两列数据进行同元素去重,最终得到结果为:
G1 G2 a b c d e f
代码如下:
#-*- coding: utf-8 -*- data = {'G1':['a','b','c','d','e'],'G2':['b','a','d','c','f']} data = pd.DataFrame(data) data['G3'] = data['G1'] + '|' + data['G2'] p = [] for i in data['G3'].tolist(): tmp = sorted(i.split('|')) # The most important part,sort p.append(tmp[0] + '|' + tmp[1]) data['G3'] = pd.Series(p) data = data.drop_duplicates('G3')
以上这篇Pandas 同元素多列去重的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们。
相关推荐
-
Pandas 数据框增、删、改、查、去重、抽样基本操作方法
总括 pandas的索引函数主要有三种: loc 标签索引,行和列的名称 iloc 整型索引(绝对位置索引),绝对意义上的几行几列,起始索引为0 ix 是 iloc 和 loc的合体 at是loc的快捷方式 iat是iloc的快捷方式 建立测试数据集: import pandas as pd df = pd.DataFrame({'a': [1, 2, 3], 'b': ['a', 'b', 'c'],'c': ["A","B","C"]}) p
-
pandas 实现将重复表格去重,并重新转换为表格的方法
在python处理数据时,经常用到DataFrame和set. train=pd.read_csv('XXX.csv')#读取文件 train=train['item_id']#选择要去重的列 train=set(train)#去重 data=pd.DataFrame(list(train),columns=['item_id'])#因为set是无序的,必须要经过list处理后才能成为DataFrame data.to_csv('xxx.csv',index=False)#保存表格 记得导入pa
-
Pandas 同元素多列去重的实例
有一些问题可能会遇到同元素多列去重问题,下面介绍一种非常简单效率也很快的做法,用pandas来实现. 首先我们看一下数据类型: G1 G2 a b b a c d d c e f 对这样的两列数据进行同元素去重,最终得到结果为: G1 G2 a b c d e f 代码如下: #-*- coding: utf-8 -*- data = {'G1':['a','b','c','d','e'],'G2':['b','a','d','c','f']} data = pd.DataFrame(data)
-
pandas使用apply多列生成一列数据的实例
如下所示: import pandas as pd def my_min(a, b): return min(abs(a),abs(b)) s = pd.Series([10.0247,10.0470, 10.0647,10.0761,15.0800,10.0761,10.0647,10.0470,10.0247,10.0,9.9753,9.9530,9.9353,9.9239,18.92,9.9239,9.9353,9.9530,9.9753,10.0]) df = pd.DataFrame(
-
pandas DataFrame 根据多列的值做判断,生成新的列值实例
环境:Python3.6.4 + pandas 0.22 主要是DataFrame.apply函数的应用,如果设置axis参数为1则每次函数每次会取出DataFrame的一行来做处理,如果axis为1则每次取一列. 如代码所示,判断如果城市名中含有ing字段且年份为2016,则新列test值赋为1,否则为0. import numpy as np import pandas as pd data = {'city': ['Beijing', 'Shanghai', 'Guangzhou', 'S
-
python pandas库中DataFrame对行和列的操作实例讲解
用pandas中的DataFrame时选取行或列: import numpy as np import pandas as pd from pandas import Sereis, DataFrame ser = Series(np.arange(3.)) data = DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('wxyz')) data['w'] #选择表格中的'w'列,使用类字典属性,返回的是S
-
pandas.loc 选取指定列进行操作的实例
今天发现用pandas里面的数据结构可以减少大量的编程工作,从现在开始逐渐积累,记录一下: 使用标签选取数据: df.loc[行标签,列标签] df.loc['a':'b']#选取ab两行数据 df.loc[:,'one']#选取one列的数据 df.loc的第一个参数是行标签,第二个参数为列标签(可选参数,默认为所有列标签),两个参数既可以是列表也可以是单个字符,如果两个参数都为列表则返回的是DataFrame,否则,则为Series. 示例代码: df.loc[ (df.Cabin.notn
-
使用pandas把某一列的字符值转换为数字的实例
今天小编就为大家分享一篇使用pandas把某一列的字符值转换为数字的实例,具有很好的参考价值,希望对大家有所帮助.一起跟随小编过来看看吧 使用map的方法就可以实现把某一列的字符类型的值转换为数字. class_mapping = {'A':0, 'B':1} data[class] = data[class].map(class_mapping) 首先定义一个字典,然后使用map方法就可以把某一列的字符类型的值转换为数字. 以上就是对使用pandas把某一列的字符值转换为数字的认识. 这篇使用
-
Python pandas删除指定行/列数据的方法实例
目录 1.滤除缺失数据dropna() 1)滤除含有NaN值的所有行 2)滤除含有NaN值的所有列 3)滤除元素都是NaN值的行 4)滤除元素都是NaN值的列 5)滤除指定列中含有缺失的行 2.删除重复值 drop_duplicates() 1)keep=“first” 2)keep=“last” 3)keep=False 4)删除指定列中重复项对应的行 3.根据指定条件删除行列drop() 1).删除指定列 2).删除指定行 总结 1.滤除缺失数据dropna() import pandas
-
javascript中去除数组重复元素的实现方法【实例】
在实际应用中,我们很多时候都可能需要去除数组中的重复元素,下面就是javascript数组去重的方法实现: <script language="javascript"> <!-- /*判断数组中是否存在某个元素的方法*/ function isExistInArr(_array, _element){ if(!_array || !_element) return false; if(!_array.length){ return (_array == _elemen
-
python DataFrame 修改列的顺序实例
假设我有一个DataFrame(df)如下: name age id mike 10 1 tony 14 2 lee 20 3 现在我想把id 放到最前面,变成: id name age df_id = df.id df = df.drop('id',axis=1) df.insert(0,'id',df_id) 以上这篇python DataFrame 修改列的顺序实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们. 您可能感兴趣的文章: Python中datet
-
pandas按若干个列的组合条件筛选数据的方法
还是用图说话 A文件: 比如,我想筛选出"设计井别"."投产井别"."目前井别"三列数据都为11的数据,结果如下: 当然,这里的筛选条件可以根据用户需要自由调整,代码如下: # -*- coding: utf-8 -*- """ Created on Wed Nov 29 10:46:31 2017 @author: wq """ import pandas as pd #input.c
随机推荐
- Javascript中eval函数的使用方法与示例
- javascript深拷贝的原理与实现方法分析
- 基于asp.net实现图片在线上传并在线裁剪功能
- php中file_get_contents与curl性能比较分析
- asp获取数据库中表名和字段名的代码
- js 删除数组的几种方法小结
- 一个Action如何调用两个不同的方法
- 地震避险自救常识
- json的使用小结
- 超级好用的jQuery圆角插件 Corner速成
- 浅谈$('div a') 与$('div>a')的区别
- 完美解决IE9浏览器出现的对象未定义问题
- 深入理解js数组的sort排序
- Win2008 r2服务器配置VPN服务器教程(图文详解)
- 花生壳与MDaemon架设邮件服务器案例图文教程第1/2页
- 用java WebSocket做一个聊天室
- Maven配置文件pom.xml详解
- ASP.NET XmlHttp跨域访问实现代码
- PHP中替换键名的简易方法示例详解
- Android TextView(圆弧)边框和背景实例详解