Python对多属性的重复数据去重实例

2025-04-24 19:16:51

python中的pandas模块中对重复数据去重步骤：

1）利用DataFrame中的duplicated方法返回一个布尔型的Series,显示各行是否有重复行，没有重复行显示为FALSE，有重复行显示为TRUE；

2）再利用DataFrame中的drop_duplicates方法用于返回一个移除了重复行的DataFrame。

注释：

如果duplicated方法和drop_duplicates方法中没有设置参数，则这两个方法默认会判断全部咧，如果在这两个方法中加入了指定的属性名（或者称为列名），例如：frame.drop_duplicates(['state']),则指定部分列（state列）进行重复项的判断。

具体实例如下：

>>> import pandas as pd
>>> data={'state':[1,1,2,2],'pop':['a','b','c','d']}
>>> frame=pd.DataFrame(data)
>>> frame
 pop state
0 a  1
1 b  1
2 c  2
3 d  2
>>> IsDuplicated=frame.duplicated()
>>> print IsDuplicated
0 False
1 False
2 False
3 False
dtype: bool
>>> frame=frame.drop_duplicates(['state'])
>>> frame
 pop state
0 a  1
2 c  2
>>> IsDuplicated=frame.duplicated(['state'])
>>> print IsDuplicated
0 False
2 False
dtype: bool
>>>

以上这篇Python对多属性的重复数据去重实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

您可能感兴趣的文章:

用python实现简单EXCEL数据统计的实例
python实现对excel进行数据剔除操作实例
Python处理Excel文件实例代码
使用Python操作excel文件的实例代码
Python读写Excel文件的实例
python对excel文档去重及求和的实例

使用Python操作excel文件的实例代码

使用的类库 pip install openpyxl 操作实现 •工作簿操作 # coding: utf-8 from openpyxl import Workbook # 创建一个excel工作簿 wb = Workbook() # 打开一个工作簿 wb = load_workbook('test.xlsx') # 保存工作簿到文件 wb.save('save.xlsx') •工作表操作 # 获得当前的工作表对象 ws = wb.active # 通过工作表名称得到工作表对象 ws = wb.
Python读写Excel文件的实例

最近由于经常要用到Excel,需要根据Excel表格中的内容对一些apk进行处理,手动处理很麻烦,于是决定写脚本来处理.首先贴出网上找来的读写Excel的脚本. 1.读取Excel(需要安装xlrd): #-*- coding: utf8 -*- import xlrd fname = "reflect.xls" bk = xlrd.open_workbook(fname) shxrange = range(bk.nsheets) try: sh = bk.sheet_by_name(
python实现对excel进行数据剔除操作实例

前言学习Python的过程中,我们会遇到Excel的各种问题.下面这篇文章主要给大家介绍了关于python对excel进行数据剔除操作的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧. Python解析Excel时需要安装两个包,分别是xlrd(读excel)和xlwt(写excel),安装方法如下: pip install xlrd pip install xlwt 需求分析: 判断excel2表中的某个唯一字段是否满足条件,如果满足条件,就在excel1中进行查询
用python实现简单EXCEL数据统计的实例

任务: 用python时间简单的统计任务-统计男性和女性分别有多少人. 用到的物料:xlrd 它的作用-读取excel表数据代码: import xlrd workbook = xlrd.open_workbook('demo.xlsx') #打开excel数据表 SheetList = workbook.sheet_names()#读取电子表到列表 SheetName = SheetList[0]#读取第一个电子表的名称 Sheet1 = workbook.sheet_by_index(0)
python对excel文档去重及求和的实例

废话不多说,估计只有我这个菜鸟废了2个小时才搞出来,主要是我想了太多方法来实现,最后都因为这因为那的原因失败了间接说明自己对可变与不可变类型的了解,还是不够透彻最后就用了个笨方法解决了! #coding:utf-8 import xlrd import xlwt import os from collections import Counter workbook = xlrd.open_workbook(r'D:\hh\heli\a.xlsx') Sheet1 = workbook.shee
Python处理Excel文件实例代码

因为工作需求,需要审核一部分query内容是否有效,query储存在Excel中,文本内容为页面的Title,而页面的URL以HyperLink的格式关联到每个Cell. 于是本能的想到用Python读取Excel文件之后进行文本分析,之后对每个链接进行一次HttpRequest,通过分析HttpResponse的内容来判断当前链接是否有效. 于是上网搜了下,发现比较主流的是用xlrd的插件,但是实际使用过程中发现,无论如何,最终获取的hyperlink_map值一直都是None,也没空去分析到
Python对多属性的重复数据去重实例

python中的pandas模块中对重复数据去重步骤: 1)利用DataFrame中的duplicated方法返回一个布尔型的Series,显示各行是否有重复行,没有重复行显示为FALSE,有重复行显示为TRUE: 2)再利用DataFrame中的drop_duplicates方法用于返回一个移除了重复行的DataFrame. 注释: 如果duplicated方法和drop_duplicates方法中没有设置参数,则这两个方法默认会判断全部咧,如果在这两个方法中加入了指定的属性名(或者称为列名)
Oracle表中重复数据去重的方法实例详解

Oracle表中重复数据去重的方法实例详解我们在项目中肯定会遇到一种情况,就是表中没有主键有重复数据或者有主键但是部分字段有重复数据而我们需要过滤掉重复数据下面是一种解决方法 delete from mytest ms where rowid in (select aa.rid from (select rowid as rid, row_number() over(partition by s.name order by s.id) as nu from mytest s) aa
python Django批量导入不重复数据

本文为大家分享了python Django批量导入不重复数据的实现代码,供大家参考,具体内容如下程序如下: #coding:utf-8 import os os.environ.setdefault("DJANGO_SETTINGS_MODULE", "www.settings") ''' Django 版本大于等于1.7的时候,需要加上下面两句 import django django.setup() 否则会抛出错误 django.core.exceptions
利用Python在一个文件的头部插入数据的实例

在一个文件的末尾追加数据是很常用的.在使用过程中应该都比较熟悉不会出现什么错误.但是往一个文件头部插入数据可能或多或少会碰到一些问题. 看似正确的错误代码很多代码看似正确,但是其实都是错的.一起来看下这些代码 1.看似正确的错误代码1 with open(path, "r+") as f: f.seek(0) f.write(data) 确实是从头写了,而且有些原有数据确实在,但是数据有问题.... 因为"r+"方式写文件操作没有插入的语义,只有写文件的含义,原来
python使用response.read()接收json数据的实例

如下所示: import json result = response.read() result.decode('utf-8') jsonData = json.loads(result) 以上这篇python使用response.read()接收json数据的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们.
python requests爬取高德地图数据的实例

如下所示: 1.pip install requests 2.pip install lxml 3.pip install xlsxwriter import requests #想要爬必须引 from lxml import html #这个是用于页面爬取 import xlsxwriter#操作Excel表格库 workbook = xlsxwriter.Workbook('E:/test/test.xlsx')# 新建的Excel表格文档路径 worksheet = workbook.ad
Python疫情确诊折线图实现数据可视化实例详解

目录案例描述实现步骤一.导入模块二.读取文件内容三.json转换python 四.获取需要用到的数据五.生成图表六.关闭文件案例描述根据可参考数据,实现对疫情确诊人数数据的可视化. 利用json转换工具,将数据格式化,需要取出下面两部分的内容. 可视化效果图: 实现步骤一.导入模块导入可能用到的模块 import json from pyecharts.charts import Line 二.读取文件内容打开相应的文件,使用变量us_data保存文件的内容 f_us =
SQL删除重复数据的实例教程

目录 1 SQL去重 2 distinct 3 group by 1. 查询根据名字去重后数据(名字相同取id值大的) 2. 删除名字相同数据(名字相同保留id值大的) 4 总结 1 SQL去重 SQL中去除完全相同数据可以用distinct关键字,任意字段去重可以用group by,以下面的数据表为例. 2 distinct 存在两条完全相同的纪录,用关键字distinct就可以去掉根据单个字段去重,能精确去重; 作用在多个字段时,只有当这几个字段的完全相同时,才能去重; 关键字distin
JS数组属性去重并校验重复数据

这篇文章主要介绍了JS数组属性去重并校验重复数据,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下新任务: 下拉框出去重复数据 //前端对象数组按某个属性去重其中jsonArray 是你要去重的对象数组示例中按name属性去重 //前端对象数组按某个属性去重 var obj = {}; jsonArray = jsonArray.reduce(function(item,next){ obj[next.name]?'':obj[next
python实现查找excel里某一列重复数据并且剔除后打印的方法

本文实例讲述了python实现查找excel里某一列重复数据并且剔除后打印的方法.分享给大家供大家参考.具体分析如下: 在python里面excel的简单读写操作我这里推荐使用xlrd(特别是读操作) import xlrd def open_excel(fileName="simple.xls"): try: fileHandler = xlrd.open_workbook(fileName) return fileHandler except Exception, e: print

Python对多属性的重复数据去重实例

您可能感兴趣的文章:

相关推荐

随机推荐