Python 处理数据的实例详解

2025-04-14 14:02:01

Python 处理数据的实例详解

最近用python（3.2的版本）写了根据特定规则，处理数据的一个小程序，用到了一些python常用的基础知识，在此总结一下：

1，python读文件
2，python写文件
3，python的流程控制
4，python的for循环
5，python的集合，或字符串里判断是否存在某个元素
6，python的逻辑或，逻辑与
7，python的正则过滤
8，python的字符串忽略空格，和以某个字符串开头和按某个字符拆分成list

python的打开文件的模式：

关于open 模式：

w     以写方式打开，
a     以追加模式打开 (从 EOF 开始, 必要时创建新文件)
r+     以读写模式打开
w+     以读写模式打开 (参见 w )
a+     以读写模式打开 (参见 a )
rb     以二进制读模式打开
wb     以二进制写模式打开 (参见 w )
ab     以二进制追加模式打开 (参见 a )
rb+    以二进制读写模式打开 (参见 r+ )
wb+    以二进制读写模式打开 (参见 w+ )
ab+    以二进制读写模式打开 (参见 a+ )

处理代码如下：

def showtxt(path,outpathname,detailpath): 

  greenpath=r"C:\\Users\\qindongliang\\Desktop\\tnstxt\\green.txt";
  redpath=r"C:\\Users\\qindongliang\\Desktop\\tnstxt\\red.txt";
  redset=listtxt(redpath)
  greenset=listtxt(greenpath)
  print("红色词数量: ",len(redset))
  print("绿色词数量: ",len(greenset))
  #符合1条件的内容写入
  f1=open(r"C:\Users\qindongliang\Desktop\tnstxt\result\\"+detailpath+"\\1.txt",encoding="UTF-8",mode="a+")
  #符合2条件的内容写入
  f2=open(r"C:\Users\qindongliang\Desktop\tnstxt\result\\"+detailpath+"\\2.txt",encoding="UTF-8",mode="a+")
  #符合3条件的内容写入
  f3=open(r"C:\Users\qindongliang\Desktop\tnstxt\result\\"+detailpath+"\\3.txt",encoding="UTF-8",mode="a+")
  #符合4条件的内容写入
  f4=open(r"C:\Users\qindongliang\Desktop\tnstxt\result\\"+detailpath+"\\4.txt",encoding="UTF-8",mode="a+") 

  delcount=1;
  f=open(path,encoding="UTF-8",mode="r+")
  fnew=open(outpathname,encoding="UTF-8",mode="a+")
  flog=open(outpathname+".log",encoding="UTF-8",mode="a+")
  #count=1;
  for line in f:
    list=line.strip().split("\t")
    line=line.strip()
    catalogid=list[0]
    score=list[1]
    keyword=clear(list[4].strip())
    if keyword in redset:
      if catalogid.startswith("018022") or catalogid.startswith("018035") or catalogid.startswith("014023003") :
        f1.write(line+"\n")#符合1条件写入
        fnew.write(line+"\n")#符合1条件写入
      else:
        flog.write(line+"  不符合条件1 "+"\n")
        delcount=delcount+1 

    if keyword in greenset:
      if not (catalogid.startswith("018022") or catalogid.startswith("018035") or catalogid.startswith("014023003")) :
        fnew.write(line+"\n")
      else:
        f2.write(line+"\n")
        flog.write(line+"  不符合条件2"+"\n")
        delcount=delcount+1 

    flist=formatStrList(keyword)
    if "sexy" in flist or "sex" in flist:
      if catalogid.startswith("018022") or catalogid.startswith("018035") or catalogid.startswith("014023003") :
        f3.write(line+"\n")
        fnew.write(line+"\n")
      else:
        flog.write(line+" 不符合条件3"+"\n")
        delcount=delcount+1 

    #if (keyword.find("underwear")!=-1) & keyword.find("sexy")==-1 & keyword.find("sex")==-1:
    if "underwear" in flist and "sexy" not in flist and "sex" not in flist:
      if catalogid.startswith("014032") :
        f4.write(line+"\n")
        fnew.write(line+"\n")
      else:
        flog.write(line+" 不符合条件4"+"\n")
        delcount=delcount+1 

    #print(list[0]," ",list[1]," ",list[4])
    #print() 

  flog.write("删除总数目： "+str(delcount))
  f.close()
  f1.close()
  f2.close()
  f3.close()
  f4.close()
  fnew.close()
  flog.close() 

import re
def clear(str):
  str=re.sub("[\"\"\'\'+]","",str)
  return str 

def formatStrList(keyword):
  list=keyword.split(" ")
  for item in list:
    item.strip();
  return list 

def listtxt(path):
   f=open(path,encoding="UTF-8")
   s=set()
   for line in f:
     s.add(line.strip())
   f.close()
   return s 

path1=r"C:\\Users\\qindongliang\\Desktop\\tnstxt\\highfrequency.txt"
pathout1=r"C:\\Users\\qindongliang\\Desktop\\tnstxt\\detail\\a_highfrequency.txt"
detail1path="highfrequency"
path2=r"C:\\Users\\qindongliang\\Desktop\\tnstxt\\highfrequency_d1.txt"
pathout2=r"C:\\Users\\qindongliang\\Desktop\\tnstxt\\detail\\b_highfrequency_d1.txt"
detail2path="highfrequency_d1" 

#showtxt(path1,pathout1,detail1path) 

showtxt(path2,pathout2,detail2path)

以上就是对Python 的数据处理的实例详解，如有疑问请留言或者到本站社区交流讨论，感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

基于python爬虫数据处理(详解)

一.首先理解下面几个函数设置变量 length()函数 char_length() replace() 函数 max() 函数 1.1.设置变量 set @变量名=值 set @address='中国-山东省-聊城市-莘县'; select @address 1.2 .length()函数 char_length()函数区别 select length('a') ,char_length('a') ,length('中') ,char_length('中') 1.3. replace() 函数
从零学python系列之数据处理编程实例（一）

要求:分别以james,julie,mikey,sarah四个学生的名字建立文本文件,分别存储各自的成绩,时间格式都精确为分秒,时间越短成绩越好,分别输出每个学生的无重复的前三个最好成绩,且分秒的分隔符要统一为"." 数据准备:分别建立四个文本文件 james.txt 2-34,3:21,2.34,2.45,3.01,2:01,2:01,3:10,2-22 julie.txt 2.59,2.11,2:11,2:23,3-10,2-23,3:10,3.21,3-21
python数据处理实战(必看篇)

一.运行环境 1.python版本 2.7.13 博客代码均是这个版本 2.系统环境:win7 64位系统二.需求对杂乱文本数据进行处理部分数据截图如下,第一个字段是原字段,后面3个是清洗出的字段,从数据库中聚合字段观察,乍一看数据比较规律,类似(币种金额万元)这样,我想着用sql写条件判断,统一转换为'万元人民币' 单位,用sql脚本进行字符串截取即可完成,但是后面发现数据并不规则,条件判断太多清洗质量也不一定,有的前面不是左括号,有的字段里面没有币种,有的数字并不是整数,有的没有万
从零学python系列之数据处理编程实例（二）

在上一节从零学python系列之数据处理编程实例(一)的基础上数据发生了变化,文件中除了学生的成绩外,新增了学生姓名和出生年月的信息,因此将要成变成:分别根据姓名输出每个学生的无重复的前三个最好成绩和出生年月数据准备:分别建立四个文本文件 james2.txt James Lee,2002-3-14,2-34,3:21,2.34,2.45,3.01,2:01,2:01,3:10,2-22 julie2.txt Julie Jones,2002-8-17,2.59,2.11
python实现爬虫统计学校BBS男女比例之数据处理（三）

本文主要介绍了数据处理方面的内容,希望大家仔细阅读. 一.数据分析得到了以下列字符串开头的文本数据,我们需要进行处理二.回滚我们需要对httperror的数据进行再处理因为代码的原因,具体可见本系列文章(二),会导致文本里面同一个id连续出现几次httperror记录: //httperror265001_266001.txt 265002 httperror 265002 httperror 265002 httperror 265002 httperror 265003 httper
Python 处理数据的实例详解

Python 处理数据的实例详解最近用python(3.2的版本)写了根据特定规则,处理数据的一个小程序,用到了一些python常用的基础知识,在此总结一下: 1,python读文件 2,python写文件 3,python的流程控制 4,python的for循环 5,python的集合,或字符串里判断是否存在某个元素 6,python的逻辑或,逻辑与 7,python的正则过滤 8,python的字符串忽略空格,和以某个字符串开头和按某个字符拆分成list python的打开文件的模式: 关
Python pyecharts数据可视化实例详解

目录一.数据可视化 1.pyecharts介绍 2.初入了解 (1).快速上手 (2).简单的配置项介绍 3.案例实战 (1).柱状图Bar (2).地图Map (3).饼图Pie (4).折线图Line (5).组合图表二.案例数据获取总结一.数据可视化 1.pyecharts介绍官方网址:https://pyecharts.org/#/zh-cn/intro 概况: Echarts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,使用JavaScript实现的.
对python 操作solr索引数据的实例详解

测试代码1: def test(self): data = {"add": {"doc": {"id": "100001", "*字段名*": u"我是一个大好人"}}} params = {"boost": 1.0, "overwrite": "true", "commitWithin": 1000} ur
对python requests发送json格式数据的实例详解

requests是常用的请求库,不管是写爬虫脚本,还是测试接口返回数据等.都是很简单常用的工具. 这里就记录一下如何用requests发送json格式的数据,因为一般我们post参数,都是直接post,没管post的数据的类型,它默认有一个类型的,貌似是 application/x-www-form-urlencoded. 但是,我们写程序的时候,最常用的接口post数据的格式是json格式.当我们需要post json格式数据的时候,怎么办呢,只需要添加修改两处小地方即可. 详见如下代码: i
python爬取天气数据的实例详解

就在前几天还是二十多度的舒适温度,今天一下子就变成了个位数,小编已经感受到冬天寒风的无情了.之前对获取天气都是数据上的搜集,做成了一个数据表后,对温度变化的感知并不直观.那么,我们能不能用python中的方法做一个天气数据分析的图形,帮助我们更直接的看出天气变化呢? 使用pygal绘图,使用该模块前需先安装pip install pygal,然后导入import pygal bar = pygal.Line() # 创建折线图 bar.add('最低气温', lows) #添加两线的数据序列 b
Python疫情确诊折线图实现数据可视化实例详解

目录案例描述实现步骤一.导入模块二.读取文件内容三.json转换python 四.获取需要用到的数据五.生成图表六.关闭文件案例描述根据可参考数据,实现对疫情确诊人数数据的可视化. 利用json转换工具,将数据格式化,需要取出下面两部分的内容. 可视化效果图: 实现步骤一.导入模块导入可能用到的模块 import json from pyecharts.charts import Line 二.读取文件内容打开相应的文件,使用变量us_data保存文件的内容 f_us =
Python 迭代器与生成器实例详解

Python 迭代器与生成器实例详解一.如何实现可迭代对象和迭代器对象 1.由可迭代对象得到迭代器对象例如l就是可迭代对象,iter(l)是迭代器对象 In [1]: l = [1,2,3,4] In [2]: l.__iter__ Out[2]: <method-wrapper '__iter__' of list object at 0x000000000426C7C8> In [3]: t = iter(l) In [4]: t.next() Out[4]: 1 In [5]: t.
python 中xpath爬虫实例详解

案例一: 某套图网站,套图以封面形式展现在页面,需要依次点击套图,点击广告盘链接,最后到达百度网盘展示页面. 这一过程通过爬虫来实现,收集百度网盘地址和提取码,采用xpath爬虫技术 1.首先分析图片列表页,该页按照更新先后顺序暂时套图封面,查看HTML结构.每一组"li"对应一组套图.属性href后面即为套图的内页地址(即广告盘链接页).所以,我们先得获取列表页内所有的内页地址(即广告盘链接页) 代码如下: import requests 倒入requests库 from lxml
对python生成业务报表的实例详解

本文介绍一个用python结合xlsxwriter自动生成业务报表的程序.这里的业务数据采用的是指定的值,真实情况下需要其他程序来接入数据. # -*- coding: utf-8 -*- import xlsxwriter workbook = xlsxwriter.Workbook('chart.xlsx') worksheet = workbook.add_worksheet() # 指定类型为柱状图 chart = workbook.add_chart({'type': 'column'
python模块常用用法实例详解

1.time模块(※※※※) import time #导入时间模块 print(time.time()) #返回当前时间的时间戳,可用于计算程序运行时间 print(time.localtime()) #返回当地时间的结构化时间格式,参数默认为时间戳 print(time.gmtime) #返回UTC时间的结构化时间格式 print(time.mktime(time.localtime())) #将结构化时间转换为时间戳 print(time.strftime("%Y-%m-%d %X&quo

Python 处理数据的实例详解

相关推荐

随机推荐