python 序列去重并保持原始顺序操作

目录
  • 一、简单的方法实现
  • 二、用 set 和 yield 实现
  • 三、Python列表去重并保持顺序为什么使用yield?

一、简单的方法实现

def dedupe(items):
    seen = []
    for item in items:
        if item not in seen:
            seen.append(item)
    return seen

sequence = [1, 2, 3, 5, 2, 3, 4]
print((dedupe(sequence)))    # [1, 2, 3, 5, 4]

二、用 set 和 yield 实现

代码:

def dedupe(items):
    seen = set()    # 集合set是一个无序不重复元素集
    for item in items:
        if item not in seen:
            yield item
            seen.add(item)          

sequence = [1, 2, 3, 5, 2, 3, 4]
print(list(dedupe(sequence)))    # [1, 2, 3, 5, 4]
# list(dedupe(sequence))是将生成器中的结果呈现出来

这里对set和yield进行研究。如果不用yield可不可以呢,毕竟用生成器会很难理解,那么首先去掉yied,返回seen:

def dedupe(items):
    seen = set()
    for item in items:
        if item not in seen:
            seen.add(item)
    return seen

sequence = [1, 2, 3, 5, 2, 3, 4]
print(list(dedupe(sequence)))    # [1, 2, 3, 4, 5]

可以发现输出的元素并没有保持原有的顺序,这是因为set的特性导致的。set是一个一个无序不重复元素集,使用 add()方法向set中添加元素时并不会将元素添加到末尾,而是按照顺序插入到了中间位置。

我们可以逐步打印 seen 的内容看一下:

def dedupe(items):
    seen = set()
    for item in items:
        if item not in seen:
            seen.add(item)
            print("seen: ",seen)
    return seen

sequence = [1, 2, 3, 5, 2, 3, 4]
print("sequence元素: ",dedupe(sequence))

# output:
seen:  {1}
seen:  {1, 2}
seen:  {1, 2, 3}
seen:  {1, 2, 3, 5}
seen:  {1, 2, 3, 4, 5}
sequence元素:  {1, 2, 3, 4, 5}

可以发现向集合 {1, 2, 3, 5} 中 add(4),得到的是 {1, 2, 3, 4, 5},而不是 {1, 2, 3, 5, 4},这就是 set 无序性的体现。

那么为什么用 yield 就可以实现保持顺序的功能呢?因为 yield 生成器会逐个返回 1, 2, 3, 5, 4

那么为什么 print(list(dedupe(sequence)) )会输出 [1, 2, 3, 5, 4] 呢?因为 list(dedupe(sequence)) 是将生成器中的结果呈现出来,直接打印生成器 print(dedupe(sequence)) 只会输出地址,不会输出内容,

三、Python列表去重并保持顺序为什么使用yield?

list(dedupe(a))的作用是将生成器中的结果呈现出来,所以顺序没有改变。修改一下函数就能看到seen,

如图:

在函数中打印seen:

可以看见在中间出现了一个集合,就是seen,如果去掉print中的list,则打印:

此时出现了一个生成器(generator),但没有打印print(seen)。为什么呢?因为不调用生成器的话,程序只执行到yeild item,不继续往下执行了。

我们可以使用next()方法调用生成器:

输出结果:

可以看出生成器调用了第一个数值5,此时停在第二个数值处,再用next方法调用时,将打印第二个数值2 ,再用next方法调用时,将打印第三个数值1 :

这里用next调用生成器时,必须将生成器实例化,即g = dedupe(a),如果仍然用next(dedupe(a))将一直打印5,因为Python会认为你又重新调用了一次函数。

结果:

到此这篇关于python 序列去重并保持原始顺序操作的文章就介绍到这了,更多相关python 序列去重内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • python set()去重的底层原理及实例

    目录 set是什么? set特点 一.set去重简单实例 二.重新set实现机制 三.结论 四.应用场景需求 set是什么? 数学上,把set称做由不同的元素组成的集合,集合(set)的成员通常被称做集合元素(set elements).Python把这个概念引入到它的集合类型对象里.集合对象是一组无序排列的可哈希的值.集合关系测试和union.intersection等操作符在Python里也同样如我们所预想地那样工作. set特点 集合的元素有三个特征: 1.确定性:集合中的元素必须是确定的

  • 基于Python制作一个文件去重小工具

    目录 前言 实现步骤 补充 前言 常常在下载网络素材时有很多的重复文件乱七八糟的,于是想实现一个去重的操作. 主要实现思路就是遍历出某个文件夹包括其子文件夹下面的所有文件,最后,将所有文件通过MD5函数的对比筛选出来,最后将重复的文件移除. 实现步骤 用到的第三方库都比较的常见,其中只有hashlib是用来对比文件的不是很常见.其他的都是一些比较常见的第三方库用来做辅助操作. import os # 应用文件操作 import hashlib # 文件对比操作 import logging #

  • 8行代码实现Python文件去重

    目录 需求描述 撸代码ing 需求描述 上周突然接到一个任务,要通过XX网站导出XX年-XX年之间的数据,导出后的文件名就是对应日期,导出后发现,竟然有的文件大小是一样,但文件名又没有重复,所以打开文件看了下,确实重复了,原因暂时不清楚,预测是网站的原因,最后发现大概只有 30% 的数据没有重复.我淦! 啥也不说,首要任务还是把那些没有重复的文件给筛选出来,或是删除重复的文件.文件很多几百个,通过一个个的对比文件去删除估计又要加班,然后突然想到 Python 有个内置的 filecmp 能够貌似

  • python 序列去重并保持原始顺序操作

    目录 一.简单的方法实现 二.用 set 和 yield 实现 三.Python列表去重并保持顺序为什么使用yield? 一.简单的方法实现 def dedupe(items):     seen = []     for item in items:         if item not in seen:             seen.append(item)     return seen sequence = [1, 2, 3, 5, 2, 3, 4] print((dedupe(s

  • Python序列操作之进阶篇

    简介 Python 的序列(sequence)通常指一个可迭代的容器,容器中可以存放任意类型的元素.列表和元组这两种数据类型是最常被用到的序列,python内建序列有六种,除了刚刚有说过的两种类型之外,还有字符串.Unicode字符串.buffer对像和最后一种xrange对像,这几种都是不常使用的.本文讲解了列表推导式.切片命名.列表元素排序.列表元素分组的使用方法.学习了 Python 基本的列表操作后,学习这些进阶的操作,让我们写出的代码更加优雅简洁和 pythonic . 列表推导式 当

  • python序列类型种类详解

    python序列类型包括哪三种 python序列类型包括:列表.元组.字典 列表:有序可变序列 创建:userlist = [1,2,3,4,5,6] 修改:userlist[5] = 999 添加:userlist.append(777) 删除:userlist.remove(4) 或者 del(userlist[3]) pop方法:移除一个元素,默认为最后一个. userlist.pop(3)移除第三个元素,并且返回该值. 插入:userlist.insert(3,555) 排序:userl

  • Python序列的推导式实现代码

    推导式comprehensions(又称解析式),是Python的一种独有特性. 推导式是可以从一个数据序列构建另一个新的数据序列(的一种结构体). Python中共有三种推导,在Python2和3中都有支持: 列表推导式 字典推导式 集合推导式 1.列表推导式 作用:用一个表达式创建一个有规律的列表或控制一个有规律列表. 列表推导式又叫列表生成式. (1)快速体验 需求:创建一个0-10的列表. while循环实现 # 1. 准备一个空列表 list1 = [] # 2. 书写循环,依次追加数

  • Python 序列的方法总结

    最近在做Python 的项目,特地整理了下 Python 序列的方法.序列sequence是python中最基本的数据结构,本文先对序列做一个简单的概括,之后简单讲解下所有序列都能通用的操作方法. 任何序列都可以引用其中的元素(item). 下面的内建函数(built-in function)可用于列表(表,定值表,字符串) #s为一个序列 len(s) 返回: 序列中包含元素的个数 min(s) 返回:序列中最小的元素 max(s) 返回:序列中最大的元素 all(s) 返回:True,若果所

  • Python序列循环移位的3种方法推荐

    第一种方法:特点是直接.容易理解,缺点是速度慢,只能实现循环左移. def demo(lst, k): temp = lst[:] for i in range(k): temp.append(temp.pop(0)) return temp 第二种方法:特点是速度快,并且自适应循环左移(k>0)和右移(k<0),缺点是涉及到算法,不容易理解. def demo(lst, k): x = lst[:k] x.reverse() y = lst[k:] y.reverse() r = x+y r

  • Python 列表去重去除空字符的例子

    如下所示: # x = ['c b a',"e d f"] # y = [] # for i in x: # for ii in i: # # print(ii) # if ii == ' ': # pass # else: # y.append(ii) # print(y) # python 清除列表中的空字符 # list1 = ['122','2333','3444',' ','422',' ',' ','54',' '] # 第一种方法会导致最后一个' '没有被移除掉['122

  • Python序列对象与String类型内置方法详解

    本文实例讲述了Python序列对象与String类型内置方法.分享给大家供大家参考,具体如下: 前言 在Python数据结构篇中介绍了Python的序列类型数据结构,这次继续深入的学习序列和String类型对象的内建方法. 软件环境 系统 UbuntuKylin 14.04 软件 Python 2.7.3 IPython 4.0.0 序列类型 序列类型,即由整数进行索引的对象的有序集合.其中又可以分为下面两类: 可变序列:列表,支持元素的插入.删除.替换 不可变序列:元组.字符串 序列的操作方法

  • Python序列类型的打包和解包实例

    打包 如给出一系列由逗号分隔的表达式,他们将被视为一个单独元组,即使没有提供封闭的圆括号 如: numbers = 1, 2, 3, 4 使numbers被赋值元组(1, 2, 3, 4) return a, b 返回元组(a, b) 解包 Python可以自动解包一个序列,润许单个标识符的一系列元素赋值给序列中的各个元素,如: a, b, c, d = range(1,5) a = 1, b = 2, c = 3, d = 4 quotient, remainder = divmod(a, b

  • Python list去重且保持原顺序不变的方法

    背景 python 去重一顿操作猛如虎,set list 扒拉下去,就去重了,但是顺序就打乱了.如果对顺序没有需要的话,这样确实没有什么所谓. 但是如果需要保留顺序的话,就需要一点小小的改变. code && demo list 去重,顺序乱掉 # normal 写法 l1 = ['b','c','d','b','c','a','a'] l2 = list(set(l1)) print(l2) # plus 写法 l1 = ['b','c','d','b','c','a','a'] l2

随机推荐