Python DataFrame使用drop_duplicates()函数去重(保留重复值,取重复值)
摘要
在进行数据分析时,我们经常需要对DataFrame去重,但有时候也会需要只保留重复值。
这里就简单的介绍一下对于DataFrame去重和取重复值的操作。
创建DataFrame
这里首先创建一个包含一行重复值的DataFrame。
2.DataFrame去重,可以选择是否保留重复值,默认是保留重复值,想要不保留重复值的话直接设置参数keep为False即可。
3.取DataFrame重复值。大多时候我们都是需要将数据去重,但是有时候很我们也需要取重复数据,这个时候我们就可以根据刚刚上面我们得到的两个DataFrame来concat到一起之后去重不保留重复值就可以。这样就把重复值取出来了。
###############################
分割线:补充
###############################
4.DataFrame根据某列去重
5.DataFrame根据某几列去重
到此这篇关于Python DataFrame使用drop_duplicates()函数去重(保留重复值,取重复值)的文章就介绍到这了,更多相关DataFrame使用drop_duplicates去重内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!
相关推荐
-
Python Dataframe 指定多列去重、求差集的方法
1)去重 指定多列去重,这是在dataframe没有独一无二的字段作为PK(主键)时,需要指定多个字段一起作为该行的PK,在这种情况下对整体数据进行去重. Attention:主要用到了drop_duplicates方法,并设置参数subset为多个字段名构成的数组. 具体代码如下: >>>import pandas as pd >>>data={'state':[1,1,2,2,1,2,2],'pop':['a','b','c','d','b','c','d']} &
-
python pandas dataframe 去重函数的具体使用
今天笔者想对pandas中的行进行去重操作,找了好久,才找到相关的函数 先看一个小例子 from pandas import Series, DataFrame data = DataFrame({'k': [1, 1, 2, 2]}) print data IsDuplicated = data.duplicated() print IsDuplicated print type(IsDuplicated) data = data.drop_duplicates() print data 执行
-
Python DataFrame使用drop_duplicates()函数去重(保留重复值,取重复值)
摘要 在进行数据分析时,我们经常需要对DataFrame去重,但有时候也会需要只保留重复值. 这里就简单的介绍一下对于DataFrame去重和取重复值的操作. 创建DataFrame 这里首先创建一个包含一行重复值的DataFrame. 2.DataFrame去重,可以选择是否保留重复值,默认是保留重复值,想要不保留重复值的话直接设置参数keep为False即可. 3.取DataFrame重复值.大多时候我们都是需要将数据去重,但是有时候很我们也需要取重复数据,这个时候我们就可以根据刚刚上面我们
-
Python DataFrame.groupby()聚合函数,分组级运算
pandas提供了一个灵活高效的groupby功能,它使你能以一种自然的方式对数据集进行切片.切块.摘要等操作.根据一个或多个键(可以是函数.数组或DataFrame列名)拆分pandas对象.计算分组摘要统计,如计数.平均值.标准差,或用户自定义函数.对DataFrame的列应用各种各样的函数.应用组内转换或其他运算,如规格化.线性回归.排名或选取子集等.计算透视表或交叉表.执行分位数分析以及其他分组分析. groupby分组函数: 返回值:返回重构格式的DataFrame,特别注意,grou
-
C++函数参数取默认值的深入详解
一般情况下,在函数调用时形参从实参那里取得值,因此实参的个数应与形参相同.有时多次调用同一函数时用同样的实参,C++提供简单的处理办法,给形参一个默认值,这样形参就不必一定要从实参取值了.如有一函数声明float area(float r=6.5);指定r的默认值为6.5,如果在调用此函数时,确认r的值为6.5,则可以不必给出实参的值,如area( ); //相当于area(6.5);如果不想使形参取此默认值,则通过实参另行给出.如area(7.5); //形参得到的值为7.5,而不是6.5这
-
python Dataframe 合并与去重详情
目录 1.合并 1.1 结构合并 1.1.1 concat函数 1.1.2 append函数 1.2 字段合并 2.去重 1.合并 1.1 结构合并 将两个结构相同的数据合并 1.1.1 concat函数 函数配置: concat([dataFrame1, dataFrame2,-], index_ingore=False) 参数说明:index_ingore=False(表示合并的索引不延续),index_ingore=True(表示合并的索引可延续) 实例: import pandas as
-
Python如何创建装饰器时保留函数元信息
问题 你写了一个装饰器作用在某个函数上,但是这个函数的重要的元信息比如名字.文档字符串.注解和参数签名都丢失了. 解决方案 任何时候你定义装饰器的时候,都应该使用 functools 库中的 @wraps 装饰器来注解底层包装函数.例如: import time from functools import wraps def timethis(func): ''' Decorator that reports the execution time. ''' @wraps(func) def wr
-
python DataFrame数据分组统计groupby()函数的使用
目录 groupby()函数 1. groupby基本用法 1.1 一级分类_分组求和 1.2 二级分类_分组求和 1.3 对DataFrameGroupBy对象列名索引(对指定列统计计算) 2. 对分组数据进行迭代 2.1 对一级分类的DataFrameGroupBy对象进行遍历 2.2 对二级分类的DataFrameGroupBy对象进行遍历 3. agg()函数 3.1一般写法_对目标数据使用同一聚合函数 3.2 对不同列使用不同聚合函数 3.3 自定义函数写法 4. 通过 字典 和 Se
-
python中pandas.read_csv()函数的深入讲解
这里将更新最新的最全面的read_csv()函数功能以及参数介绍,参考资料来源于官网. pandas库简介 官方网站里详细说明了pandas库的安装以及使用方法,在这里获取最新的pandas库信息,不过官网仅支持英文. pandas是一个Python包,并且它提供快速,灵活和富有表现力的数据结构.这样当我们处理"关系"或"标记"的数据(一维和二维数据结构)时既容易又直观. pandas是我们运用Python进行实际.真实数据分析的基础,同时它是建立在NumPy之上的
-
Python做文本按行去重的实现方法
文本: 每行在promotion后面包含一些数字,如果这些数字是相同的,则认为是相同的行,对于相同的行,只保留一行. 思路: 根据字典和字符串切割. 建立一个空字典. 读入文本,并对每行切割前半部分,在读入文本的过程中循环在这个字典中查找,如果没找到,则写入该行到字典.否则,则表示该行已经被写入过字典了(即出现重复的行了),不再写入字典,这就实现了对于重复的行只保留一行的目的. 文本如下: /promotion/232 utm_source /promotion/237 LandingPage/
-
Python简单实现查找一个字符串中最长不重复子串的方法
本文实例讲述了Python简单实现查找一个字符串中最长不重复子串的方法.分享给大家供大家参考,具体如下: 刚结束的一个笔试题,很简单,不多说简单贴一下具体的实现: #!usr/bin/env python #encoding:utf-8 ''''' __Author__:沂水寒城 功能:找出来一个字符串中最长不重复子串 ''' def find_longest_no_repeat_substr(one_str): ''''' 找出来一个字符串中最长不重复子串 ''' res_list=[] le
随机推荐
- Python算法应用实战之队列详解
- 正则表达式的使用 ASP
- 深入理解PHP JSON数组与对象
- JavaScript 实现打印,打印预览,打印设置
- VS2015 免费插件Refactoring Essentials
- 利用PHP实现一个简单的用户登记表示例
- thinkPHP简单导入和使用阿里云OSSsdk的方法
- sql 中 case when 语法使用方法
- jQuery库与其他JS库冲突的解决办法
- JavaScript语句可以不以;结尾的烦恼
- 修改系统DLL文件实现禁用的方法
- JavaEE实现文件下载
- C语言中的strdup()函数和其与strcpy()函数的区别
- C++通过Callback向C#传递数据的方法
- mysql临时表用法分析【查询结果可存在临时表中】
- Mysql数据库之sql基本语句小结
- 浅析springcloud 整合 zipkin-server 内存日志监控
- 详解如何在JS代码中消灭for循环
- Lambda表达式里面修改外部变量问题
- JS中的变量作用域(console版)