python文件数据分析治理提取

2025-02-04 04:22:48

前提提要

python2.0有无法直接读取中文路径的问题，需要另外写函数。python3.0在2018年的时候也无法直接读取。

现在使用的时候，发现python3.0是可以直接读取中文路径的。

需要自带或者创建几个txt文件，里面最好写几个数据（姓名，手机号，住址）

要求

写代码的时候最好，自己设几个要求，明确下目的：

需要读取对应目录路径的所有对应文件
按行读取出每个对应txt文件的记录
使用正则表达式获取每行的手机号
将手机号码存储到excel中

思路

1）读取文件
2）读取数据
3）数据整理
4）正则表达式匹配
5）数据去重
6）数据导出保存

代码

import glob
import re
import xlwt
filearray=[]
data=[]
phone=[]
filelocation=glob.glob(r'课堂实训/*.txt')
print(filelocation)
for i in range(len(filelocation)):
file =open(filelocation[i])
file_data=file.readlines()
data.append(file_data)
print(data)
combine_data=sum(data,[])

print(combine_data)
for a in combine_data:
data1=re.search(r'[0-9]{11}',a)
phone.append(data1[0])
phone=list(set(phone))
print(phone)
print(len(phone))

#存到excel中
f=xlwt.Workbook('encoding=utf-8')
sheet1=f.add_sheet('sheet1',cell_overwrite_ok=True)
for i in range(len(phone)):
sheet1.write(i,0,phone[i])
f.save('phonenumber.xls')

运行结果

会生成一个excel文件

分析

import glob
import re
import xlwt

globe用来定位文件，re正则表达式，xlwt用于excel

1）读取文件

filelocation=glob.glob(r'课堂实训/*.txt')

指定目录下的所有txt文件

2）读取数据

for i in range(len(filelocation)):
file =open(filelocation[i])
file_data=file.readlines()
data.append(file_data)
print(data)

将路径下的txt文件循环读取，按序号依次读取文件
打开每一次循环对应的文件
将每一次循环的txt文件的数据按行读取出来
使用append()方法将每一行的数据添加到data列表中
输出一下，可以看到将几个txt的文件数据以字列形式存在同一个列表

3）数据整理

combine_data=sum(data,[])

列表合并成一个列表

4）正则表达式匹配外加数据去重

print(combine_data)
for a in combine_data:
data1=re.search(r'[0-9]{11}',a)
phone.append(data1[0])
phone=list(set(phone))
print(phone)
print(len(phone))

set()函数：无序去重，创建一个无序不重复元素集

6）数据导出保存

#存到excel中
f=xlwt.Workbook('encoding=utf-8')
sheet1=f.add_sheet('sheet1',cell_overwrite_ok=True)
for i in range(len(phone)):
sheet1.write(i,0,phone[i])
f.save('phonenumber.xls')

Workbook('encoding=utf-8')：设置工作簿的编码
add_sheet('sheet1',cell_overwrite_ok=True)：创建对应的工作表
write(x,y,z)：参数对应行、列、值

到此这篇关于python文件数据分析治理提取的文章就介绍到这了,更多相关python文件数据分析内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Python从csv文件中读取数据及提取数据的方法

目录 1.从csv文件中读取数据 2.数据切割数据保存在csv文件中 1.从csv文件中读取数据参数header=None的有无 (1)没有header=None--直接将csv表中的第一行当作表头 # 读取数据 import pandas as pd data = pd.read_csv("data1.csv") print(data) 打印结果为: (2)有header=None--自动添加第一行当作表头 # 读取数据 import pandas as pd data = pd
python用pdfplumber提取pdf表格数据并保存到excel文件中

目录 pdfplumber操作pdf文件一.pdfplumber安装及导入二.pdfplumber基础使用 1.基础知识 2.获取pdf基础信息 3.pdfplumber提取表格数据三.提取pdf表格数据并保存到excel中总结 pdfplumber操作pdf文件 python开源库pdfplumber,可以较为方便地获取pdf的各种信息,包含pdf的基本信息(作者.创建时间.修改时间…)及表格.文本.图片等信息,基本可以满足较为简单的格式转换功能. 一.pdfplumber安装及导入
使用python提取html文件中的特定数据的实现代码

例如具有如下结构的html文件复制代码代码如下: <div class='entry-content'> <p>感兴趣内容1</p> <p>感兴趣内容2</p> -- <p>感兴趣内容n</p> </div> <div class='content'> <p>内容1</p> <p>内容2</p> -- <p>内容n</p>
python文件数据分析治理提取

目录前提提要要求思路代码运行结果分析 1)读取文件 2)读取数据 3)数据整理 4)正则表达式匹配外加数据去重 6)数据导出保存前提提要 python2.0有无法直接读取中文路径的问题,需要另外写函数.python3.0在2018年的时候也无法直接读取. 现在使用的时候,发现python3.0是可以直接读取中文路径的. 需要自带或者创建几个txt文件,里面最好写几个数据(姓名,手机号,住址) 要求写代码的时候最好,自己设几个要求,明确下目的: 需要读取对应目录路径的所有对应文件
python数据分析:关键字提取方式

TF-IDF TF-IDF(Term Frequencey-Inverse Document Frequency)指词频-逆文档频率,它属于数值统计的范畴.使用TF-IDF,我们能够学习一个词对于数据集中的一个文档的重要性. TF-IDF的概念 TF-IDF有两部分,词频和逆文档频率.首先介绍词频,这个词很直观,词频表示每个词在文档或数据集中出现的频率.等式如下: TF(t)=词t在一篇文档中出现的次数/这篇文档的总词数第二部分--逆文档频率实际上告诉了我们一个单词对文档的重要性.这是因为当计
python按列索引提取文件夹内所有excel指定列汇总(示例代码)

目录前言一.情景描述二.python汇总总结前言一.情景描述情景一:文件夹内有很多excel数据,包含的数据格式一样,我们需要提取每个文件中指定的几列数据汇总到一个文件中(因为是按列索引提取,所以列的顺序可以不一样) 汇总后: 二.python汇总注意事项: 文件所在文件夹内只能有运行文件.py,和需要汇总的文件,不能有其它文件夹,否则会出现运行错误: 运行第二遍时需要将第一遍运行得到的结果文件res.xlsx删除,否则也会出现运行错误: 代码如下(示例): # -*- codi
python从gbff文件中直接提取cds序列

目录什么是GBFF文件每个序列条目所代表的意义最后直接上代,更改输入和输出文件即可使用什么是GBFF文件 GenBank纯文本文件格式(GenBank flatfile, 简称GBFF) GBFF是GenBank数据库的基本信息单位 GBFF序列文件由单个的序列条目组成. 序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明. 字段分若干次子字段,以次关键字或特性表说明符开始. 每个序列条目以双斜杠“//*作结束标记每个序列条目所代表的意义 1. LOCUS(代码)序列的
对Python进行数据分析_关于Package的安装问题

一.为什么要使用Python进行数据分析? python拥有一个巨大的活跃的科学计算社区,拥有不断改良的库,能够轻松的集成C,C++,Fortran代码(Cython项目),可以同时用于研究和原型的构建以及生产系统的构建. 二.Python的优势与劣势: 1.Python是一种解释型语言,运行速度比编译型数据慢. 2.由于python有一个全局解释器锁(GIL),防止解释器同时执行多条python字节码,所以python不适用于高并发.多线程的应用程序. 三.使用Python进行数据分析常用的扩
python多进程读图提取特征存npy

本文实例为大家分享了python多进程读图提取特征存npy的具体代码,供大家参考,具体内容如下 import multiprocessing import os, time, random import numpy as np import cv2 import os import sys from time import ctime import tensorflow as tf image_dir = r"D:/sxl/处理图片/汉字分类/train10/" #图像文件夹路径 da
python实现数据分析与建模

前言首先我们做数据分析,想要得出最科学,最真实的结论,必须要有好的数据.而实际上我们一般面对的的都是复杂,多变的数据,所以必须要有强大的数据处理能力,接下来,我从我们面临的最真实的情况,一步一步教会大家怎么做. 1.数据的读取 (1)读取模块 Import pandas as pd Import numpy as np (2)读取表格的全部数据 df = pd.read_csv(".data/HR.csv") (3)读取你所需要的数据 sl_s=df["sactisfact
浅谈php调用python文件

关于PHP调用Python数据传输问题这是以前大学时做项目出现的问题,现在把它挪上来,希望给遇到问题的未来大佬给出一些小的思路,请大佬们不要大意的帮我改正,如果出现问题或者有更好的解决方法,希望大家可以给出,谢谢! 以前小组开展项目实训,我们小组选择的是大数据分析,其中有一个用python进行文本分析之后对用户输入的数据进行分析,然后输出对应的岗位及其他.要求是前端将文本要求传到后台php,php调用python程序处理,再将数据传给php,然后再传到前端,进行下一步处理.结果python传回
Python实现使用卷积提取图片轮廓功能示例

本文实例讲述了Python实现使用卷积提取图片轮廓功能.分享给大家供大家参考,具体如下: 一.实例描述将彩色的图片生成带边缘化信息的图片. 本例中先载入一个图片,然后使用一个"3通道输入,1通道输出的3*3卷积核"(即sobel算子),最后使用卷积函数输出生成的结果. 二.代码 ''''' 载入图片并显示首先将图片放到代码的同级目录下,通过imread载入,然后将其显示并打印出来 ''' import matplotlib.pyplot as plt # plt 用于显示图片 im
在 Jupyter 中重新导入特定的 Python 文件(场景分析)

Jupyter 是数据分析领域非常有名的开发环境,使用 Jupyter 写数据分析相关的代码会大大节约开发时间. 设想这样一个场景:别的部门的同事传给你一个数据分析的模块,用于实现对数据的高级分析.模块里面有上百个函数. 如果直接写 Python 文件来调用数据分析模块,那么使用方法非常简单: from analyze import FathersAnalyzer data = [...] father = FathersAnalyzer(data) result = father.analyz