Pandas的DataFrame如何做交集,并集,差集与对称差集

2026-02-14 15:10:04

一、简介

Python的数据类型集合：由不同元素组成的集合，集合中是一组无序排列的可 Hash 的值（不可变类型），可以作为字典的Key

Pandas中的DataFrame：DataFrame是一个表格型的数据结构，可以理解为带有标签的二维数组。

常用的集合操作如下图所示：

二、交集

pandas的 merge 功能默认为 inner 连接，可以实现取交集
集合 set 可以直接用 & 取交集

import pandas as pd

print("CSDN叶庭云：https://yetingyun.blog.csdn.net/")
set1 = {"Python", "Go", "C++", "Java"}
set2 = {"Go", "C++", "JavaScript", "C"}
set1 & set2

df1 = pd.DataFrame([
        ['1', 'Python'],
        ['2', 'Go'],
        ['3', 'C++'],
        ['4', 'Java'],
    ], columns=['id','name'])

df2 = pd.DataFrame([
        ['2','Go'],
        ['3','C++'],
        ['5','JavaScript'],
        ['6','C'],
    ], columns=['id','name'])

pd.merge(df1, df2, on=['id','name'])

操作如下所示：

三、并集

Pandas的 merge 方法里参数 how 的取值有 “left”, “right”, “inner”, “outer”，默认是inner。outer外连接可以实现取并集。另一种方法也可以df1.append(df2)后去重，保留第一次出现的也可以实现取并集。
集合 set 可以直接用 | 取并集

set1 = {"Python", "Go", "C++", "Java"}
set2 = {"Go", "C++", "JavaScript", "C"}
set1 | set2

print("CSDN叶庭云：https://yetingyun.blog.csdn.net/")

df1 = pd.DataFrame([
        ['1', 'Python'],
        ['2', 'Go'],
        ['3', 'C++'],
        ['4', 'Java'],
    ], columns=['id','name'])

df2 = pd.DataFrame([
        ['2','Go'],
        ['3','C++'],
        ['5','JavaScript'],
        ['6','C'],
    ], columns=['id','name'])

pd.merge(df1, df2,
         on=['id','name'],
         how='outer')
         
df3 = df1.append(df2)
df3.drop_duplicates(subset=['id'], keep="first")

四、差集

set1 = {"Python", "Go", "C++", "Java"}
set2 = {"Go", "C++", "JavaScript", "C"}
set1 - set2

print("CSDN叶庭云：https://yetingyun.blog.csdn.net/")
set1 = {"Python", "Go", "C++", "Java"}
set2 = {"Go", "C++", "JavaScript", "C"}
set2 - set1

# df1-df2
df1 = pd.DataFrame([
        ['1', 'Python'],
        ['2', 'Go'],
        ['3', 'C++'],
        ['4', 'Java'],
    ], columns=['id','name'])

df2 = pd.DataFrame([
        ['2','Go'],
        ['3','C++'],
        ['5','JavaScript'],
        ['6','C'],
    ], columns=['id','name'])

df1 = df1.append(df2)
df1 = df1.append(df2)
set_diff_df = df1.drop_duplicates(subset=df1.columns,
                                  keep=False)
set_diff_df

# df2-df1
df1 = pd.DataFrame([
        ['1', 'Python'],
        ['2', 'Go'],
        ['3', 'C++'],
        ['4', 'Java'],
    ], columns=['id','name'])

df2 = pd.DataFrame([
        ['2','Go'],
        ['3','C++'],
        ['5','JavaScript'],
        ['6','C'],
    ], columns=['id','name'])

print("CSDN叶庭云：https://yetingyun.blog.csdn.net/")
df2 = df2.append(df1)
df2 = df2.append(df1)
set_diff_df = df2.drop_duplicates(subset=df2.columns,
                                  keep=False)
set_diff_df

# df1-df2
df1 = pd.DataFrame([
        ['1', 'Python'],
        ['2', 'Go'],
        ['3', 'C++'],
        ['4', 'Java'],
    ], columns=['id','name'])

df2 = pd.DataFrame([
        ['2','Go'],
        ['3','C++'],
        ['5','JavaScript'],
        ['6','C'],
    ], columns=['id','name'])

pd.concat([df1, df2, df2]).drop_duplicates(keep=False)

# df2-df1
df1 = pd.DataFrame([
        ['1', 'Python'],
        ['2', 'Go'],
        ['3', 'C++'],
        ['4', 'Java'],
    ], columns=['id','name'])

df2 = pd.DataFrame([
        ['2','Go'],
        ['3','C++'],
        ['5','JavaScript'],
        ['6','C'],
    ], columns=['id','name'])

pd.concat([df2, df1, df1]).drop_duplicates(keep=False)

五、对称差集

print("CSDN叶庭云：https://yetingyun.blog.csdn.net/")
set1 = {"Python", "Go", "C++", "Java"}
set2 = {"Go", "C++", "JavaScript", "C"}
set1 ^ set2    # 对称差集

# 去重   不保留重复的：即可实现取对称差集
df3 = df1.append(df2)

df3.drop_duplicates(subset=['id'], keep=False)

到此这篇关于Pandas的DataFrame如何做交集,并集,差集与对称差集的文章就介绍到这了,更多相关Pandas的DataFrame如何做交集,并集,差集与对称差集内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Pandas DataFrame求差集的示例代码

在Pandas中求差集没有专门的函数.处理办法就是将两个DataFrame追加合并,然后去重. divident.append(hasThisYearDivident) noHasThisYearDivident = divident.drop_duplicates(subset='ts_code', keep=False, inplace=True, ignore_index=True) 具体函数用法: https://pandas.pydata.org/pandas-docs/stable
Pandas中两个dataframe的交集和差集的示例代码

创建测试数据: import pandas as pd import numpy as np #Create a DataFrame df1 = { 'Subject':['semester1','semester2','semester3','semester4','semester1', 'semester2','semester3'], 'Score':[62,47,55,74,31,77,85]} df2 = { 'Subject':['semester1','semester2','s
pandas DataFrame 交集并集补集的实现

1.场景,对于colums都相同的dataframe做过滤的时候例如: df1 = DataFrame([['a', 10, '男'], ['b', 11, '男'], ['c', 11, '女'], ['a', 10, '女'], ['c', 11, '男']], columns=['name', 'age', 'sex']) df2 = DataFrame([['a', 10, '男'], ['b', 11, '女']], columns=['name', 'age', 'sex']) 取
Pandas的DataFrame如何做交集,并集,差集与对称差集

目录一.简介二.交集三.并集四.差集五.对称差集一.简介 Python的数据类型集合:由不同元素组成的集合,集合中是一组无序排列的可 Hash 的值(不可变类型),可以作为字典的Key Pandas中的DataFrame:DataFrame是一个表格型的数据结构,可以理解为带有标签的二维数组. 常用的集合操作如下图所示: 二.交集 pandas的 merge 功能默认为 inner 连接,可以实现取交集集合 set 可以直接用 & 取交集 import pandas as pd p
python集合比较(交集,并集,差集)方法详解

python的set和其他语言类似, 是一个无序不重复元素集, 基本功能包括关系测试和消除重复元素. 集合对象还支持union(联合), intersection(交), difference(差)和sysmmetric difference(对称差集)等数学运算. sets 支持 x in set, len(set),和 for x in set.作为一个无序的集合,sets不记录元素位置或者插入点.因此,sets不支持 indexing, slicing, 或其它类序列(sequence-l
详解利用Pandas求解两个DataFrame的差集,交集,并集

目录模拟数据差集方法1:concat + drop_duplicates 方法2:append + drop_duplicates 交集方法1:merge 方法2:concat + duplicated + loc 方法3:concat + groupby + query 并集方法1:concat + drop_duplicates 方法2:append + drop_duplicates 方法3:merge 大家好,我是Peter~ 本文讲解的是如何利用Pandas函数求解两个Dat
JavaScript数据分析之交集,并集,对称差集

目录列表交集列表并集列表对称差集数据结构是待处理问题的数学模型,算法则是处理问题的策略. 作为软件工程师除了要对现实问题有很好的理解与把控外,还要深谙数据结构与算法才能找到合适的数学模型和算法,从而服务于后续的工作.由此数据结构与算法的重要性可见一斑. 列表交集代码注释: /** * @description 两个列表的交集 * @param {Array} a 列表源数据 * @param {Array} b 列表源数据 * @return {Array} 目标数据 * @examp
pandas中DataFrame数据合并连接（merge、join、concat)

pandas作者Wes McKinney 在[PYTHON FOR DATA ANALYSIS]中对pandas的方方面面都有了一个权威简明的入门级的介绍,但在实际使用过程中,我发现书中的内容还只是冰山一角.谈到pandas数据的行更新.表合并等操作,一般用到的方法有concat.join.merge.但这三种方法对于很多新手来说,都不太好分清使用的场合与用途.今天就pandas官网中关于数据合并和重述的章节做个使用方法的总结. 文中代码块主要有pandas官网教程提供. 1 concat co
在Pandas中DataFrame数据合并,连接(concat,merge,join)的实例

最近在工作中,遇到了数据合并.连接的问题,故整理如下,供需要者参考~ 一.concat:沿着一条轴,将多个对象堆叠到一起 concat方法相当于数据库中的全连接(union all),它不仅可以指定连接的方式(outer join或inner join)还可以指定按照某个轴进行连接.与数据库不同的是,它不会去重,但是可以使用drop_duplicates方法达到去重的效果. concat(objs, axis=0, join='outer', join_axes=None, ignore_ind
Python Pandas实现DataFrame合并的图文教程

目录一.merge(合并)的语法: 二.以关键列来合并两个dataframe 三.理解merge时数量的对齐关系 1.one-to-one 一对一关系的merge 2.one-to-many 一对多关系的merge 3.many-to-many 多对多关系的merge 四.理解left join.right join.inner join.outer join的区别 1.inner join,默认 2.left join 3. right join 4. outer join 五.如果出现非K
python pandas中DataFrame类型数据操作函数的方法

python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFrame数据及属性 df_obj = DataFrame() #创建DataFrame对象 df_obj.dtypes #查看各行的数据格式 df_obj['列名'].astype(int)#转换某列的数据类型 df_obj.head() #查看前几行的数据,默认前5行 df_obj.tail() #查看后几
pandas修改DataFrame列名的方法

在做数据挖掘的时候,想改一个DataFrame的column名称,所以就查了一下,总结如下: 数据如下: >>>import pandas as pd >>>a = pd.DataFrame({'A':[1,2,3], 'B':[4,5,6], 'C':[7,8,9]}) >>> a A B C 0 1 4 7 1 2 5 8 2 3 6 9 方法一:暴力方法 >>>a.columns = ['a','b','c'] >>
对pandas将dataframe中某列按照条件赋值的实例讲解

在数据处理过程中,经常会出现对某列批量做某些操作,比如dataframe df要对列名为"values"做大于等于30设置为1,小于30设置为0操作,可以这样使用dataframe的apply函数来实现, 具体实现代码如下: def fun(x): if x >= 30: return 1 else: return 0 values= feature['values'].apply(lambda x: fun(x)) 具体的逻辑可以修改fun函数来实现,但是按照某些条件选择列不是