Python数据分析基础之文件的读取

目录
  • 一·Numpy库中操作文件
    • 1.操作csv文件
    • 2.在pycharm中操作csv文件
    • 3.其他情况(.npy类型文件)
  • 二·Pandas库中操作文件
    • 1.操作csv文件
    • 2.从剪贴板上复制数据
    • 3.读取excel或xlsx文件
  • 三·补充
    • 1.常用
    • 2.pandas中读取文件的函数
  • 总结

前言:如果你使用的是Anaconda中的Jupyter,则不需要下载Pands和Numpy库;如果你使用的是pycharm或其他集成环境,则需要Pands和Numpy库

一·Numpy库中操作文件

1.操作csv文件

import numpy as np
a=np.random.randint(0,10,size=(3,4))
np.savetext("score.csv",a,deliminter=",")

a:自己随便创建的数组,deliminter:分隔符,score:要读取的文件名

或者

import numpy as np
data=np.loadtxt("score.csv",delimiter=",",skiprows=1,dtype=str)

skiprows:跳过第一行,dtype:数据读出的类型为字符型

2.在pycharm中操作csv文件

import csv
with open("score.csv",'r')as fp:
reader=csv.reader(fp)
for x in reader:
     print(x)

reader:迭代器

3.其他情况(.npy类型文件)

import numpy as np
c=np.random.randint(0,10,size=(2,3))
np.save("文件名",c)
c1=np.load("文件名.npy")

二·Pandas库中操作文件

1.操作csv文件

import pandas as pd
df=pd.read_csv("exl.csv")

或者

import pandas as pd
pd.read_table("exl.csv",sep=',')

sep:分隔符

2.从剪贴板上复制数据

import pandas as pd
BS=pd.read_clipboard

3.读取excel或xlsx文件

import pandas as pd
df=read_excel("exl.xlsx")

三·补充

1.常用

import os
os.chdir()

chdir()中写上你想读取文件的目录,表示将目录转化到你想读取文件的目录.

2.pandas中读取文件的函数

  • read_csv  从文件,URL,文件型对象中加载带分隔符的数据。默认分隔符为逗号
  • read_table   同上,但默认分隔符为制表符(“t”)
  • read_fwf  读取定宽列格式数据(无分隔符)
  • read_clipboard  读取剪贴板中的数据
  • read_excel  从Excel 或xlsx文件中读取表格数据
  • read_hdf   读取pandas写的HDF5文件
  • read_html  读取html文档中的所以表格
  • read_json    读取json字符串中的数据
  • read_msgpack 二进制格式编码的pandas数据
  • read_pickle  读取python pickle 格式中存储的任意对象
  • read_sas   读取存储于SAS系统自定义存储格式为SAS数据集
  • read_sql   读取SQL查询结果为pandas的DataFrame
  • read_stata 读取stata文件格式的数据集

总结

本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注我们的更多内容!

(0)

相关推荐

  • Python如何实现逐行读取文本文件

    目录 Python 中的 open() 函数是什么 文件名和正确路径 open() 中的可选模式参数 Python 中 open() 函数的其他参数 Python 中的 read() 方法 Python 中的 close() 方法 Python 中的 readline() 方法 Python 中的 readlines() 方法 总结 在Python 中有几种方法可以读取文本文件. 在本文中,我将介绍 open() 函数.read() 方法.readline() 方法.readlines() 方法

  • Python从csv文件中读取数据及提取数据的方法

    目录 1.从csv文件中读取数据 2.数据切割 数据保存在csv文件中 1.从csv文件中读取数据 参数header=None的有无 (1)没有header=None--直接将csv表中的第一行当作表头 # 读取数据 import pandas as pd data = pd.read_csv("data1.csv") print(data) 打印结果为: (2)有header=None--自动添加第一行当作表头 # 读取数据 import pandas as pd data = pd

  • python读取文件名及后缀详解

    目录 os.listdir() 实验代码: 输出: 结果分析: os.path.splitext() 实验代码: 输出: 结果分析: os.path.split() 实验代码: 输出: 结果分析: 案例分析 思路: 代码实验: 输出: 总结 因为某些原因,需要读取d.lib后缀的文件,在此写下记录 os.listdir() 语法:os.listdir(path) 函数用途:输出路径下所有文件的文件名 实验代码: 假如我们需要读取该文件夹所包含全部文件名 import os path = "E:/

  • python数据分析之文件读取详解

    目录 前言: 一·Numpy库中操作文件 二·Pandas库中操作文件 三·补充 总结 前言: 如果你使用的是Anaconda中的Jupyter,则不需要下载Pands和Numpy库:如果你使用的是pycharm或其他集成环境,则需要Pands和Numpy库 一·Numpy库中操作文件 1.操作csv文件 import numpy as np a=np.random.randint(0,10,size=(3,4)) np.savetext("score.csv",a,deliminte

  • Python读取文件比open快十倍的库fileinput

    目录 1. 从标准输入中读取 2. 单独打开一个文件 3. 批量打开多个文件 4. 读取的同时备份文件 5. 标准输出重定向替换 6. 不得不介绍的方法 7. 进阶一点的玩法 8. 列举一些实用案例 9. 写在最后 使用 open 函数去读取文件,似乎是所有 Python 工程师的共识. 今天明哥要给大家推荐一个比 open 更好用.更优雅的读取文件方法 – 使用 fileinput 1. 从标准输入中读取 当你的 Python 脚本没有传入任何参数时,fileinput 默认会以 stdin

  • 使用Python读取和修改Excel文件(基于xlrd、xlwt和openpyxl模块)

    目录 1.使用xlrd模块对xls文件进行读操作 1.1 获取工作簿对象 1.2 获取工作表对象 1.3 获取工作表的基本信息 1.4 按行或列方式获得工作表的数据 2.使用xlwt模块对xls文件进行写操作 2.1 创建工作簿 2.2 创建工作表 2.3 按单元格的方式向工作表中添加数据 2.4 按行或列方式向工作表中添加数据 2.5 保存创建的文件 3.使用openpyxl模块对xlsx文件进行读操作 3.1 获取工作簿对象 3.2 获取所有工作表名 3.3 获取工作表对象 3.5 获取工作

  • 聊聊Python对CSV文件的读取与写入问题

    今天天气"刚刚好"(薛之谦么么哒),无聊的我翻到了一篇关于csv文件读取与写入的帖子,作为测试小白的我一直对python情有独钟,顿时心血来潮,决定小搞他一下,分享给那些需要的小白,对于python大神们来说,简直就是小儿科,对于我这种测试小白,看到代码就如同打了鸡血一样,恩恩,好东西,好东西! csv文件的读取: 前期工作:在定义的py文件里边创建一个excel文件,并另存为csv文件,放入三行数据,我这里是姓名+年龄(可以自己随意写) 首先我们要在python环境里导入csv板块(

  • Python读取和存储yaml文件的方法

    YAML 是 "YAML Ain't a Markup Language"(YAML 不是一种标记语言)的递归缩写.在开发的这种语言时,YAML 的意思其实是:"Yet Another Markup Language"(仍是一种标记语言). YAML 的语法和其他高级语言类似,并且可以简单表达清单.散列表,标量等数据形态.它使用空白符号缩进和大量依赖外观的特色,特别适合用来表达或编辑数据结构.各种配置文件.倾印调试内容.文件大纲(例如:许多电子邮件标题格式和YAML

  • Python数据分析基础之文件的读取

    目录 一·Numpy库中操作文件 1.操作csv文件 2.在pycharm中操作csv文件 3.其他情况(.npy类型文件) 二·Pandas库中操作文件 1.操作csv文件 2.从剪贴板上复制数据 3.读取excel或xlsx文件 三·补充 1.常用 2.pandas中读取文件的函数 总结 前言:如果你使用的是Anaconda中的Jupyter,则不需要下载Pands和Numpy库:如果你使用的是pycharm或其他集成环境,则需要Pands和Numpy库 一·Numpy库中操作文件 1.操作

  • Python遍历目录下文件、读取、千万条数据合并详情

    目录 一.使用Python进行文件和文件夹的判断 二.使用Python完整的获取所有文件及文件夹并读取相应的文件 三.使用Python合并数据 append的使用 一.使用Python进行文件和文件夹的判断 递归 :主要目的就是遍历文件夹和文件 对文件夹和文件进行属性判断 首先对文件夹进行遍历,看文件夹里有什么样的文件,读取出文件夹中的所有文件 import os path= "./data" #路径 files = os.listdir(path) #os.listdir() 方法用

  • python excel和yaml文件的读取封装

    excel import os import xlrd PATH = lambda p: os.path.abspath( os.path.join(os.path.dirname(__file__), p) ) class ExcelData: def __init__(self, file, sheet="sheet1", title=True): # 判断文件存在不存在 if os.path.isfile(PATH(file)): self.file = PATH(file) s

  • python操作xlsx格式文件并读取

    之前给大家介绍过python高手之路python处理excel文件(方法汇总)  Python操作Excel之xlsx文件 今天继续围绕python xlsx格式文件的操作方法给大家介绍,具体内容如下: 一.准备工作 二 .xlrd库读取 首先安装xlrd库,安装方法:pip install xlrd import xlrd #打开excel wb = xlrd.open_workbook('test_user_data.xlsx') #按工作簿定位工作表 sh = wb.sheet_by_na

  • Python 文本文件与csv文件的读取与写入

    目录 一.文本文件读取与写入 1读取文件的read()方法 2读取文件的readline()方法 3读取文件的readlines()方法 4写入文件的write()方法 5写入文件的writelines()方法 二.csv文件读取与写入 一.文本文件读取与写入 1 读取文件的 read() 方法 file_object.read([size]) file_object 表示文件对象 size 表示读取数据的长度,单位是字节,如果size省略则读至文件尾 返回值是读取到的字符串 2 读取文件的 r

  • Python学习之yaml文件的读取详解

    目录 yaml 文件的应用场景与格式介绍 yaml 文件的应用场景 yaml 文件的格式 第三方包 - pyyaml 读取 yaml 文件的方法 yaml文件读取演示案例 yaml 文件的应用场景与格式介绍 yaml 文件的应用场景 yaml其实也类似于 json.txt ,它们都属于一种文本格式.在我们的实际工作中, yaml 文件经常作为服务期配置文件来使用. 比如一些定义好的内容,并且不会修改的信息,我们就可以通过定义 yaml 文件,然后通过读取这样的文件,将数据导入到我们的服务中进行使

  • Python 文本文件与csv文件的读取与写入

    目录 一.文本文件读取与写入 1 读取文件的 read() 方法 2 读取文件的 readline() 方法 3 读取文件的 readlines() 方法 4 写入文件的 write() 方法 5 写入文件的 writelines() 方法 二.csv文件读取与写入 一.文本文件读取与写入 1 读取文件的 read() 方法 file_object.read([size]) file_object 表示文件对象 size 表示读取数据的长度,单位是字节,如果size省略则读至文件尾 返回值是读取

  • Python数据分析基础之异常值检测和处理方式

    目录 1 什么是异常值? 2 异常值的检测方法 1. 简单统计 2. 3∂原则 3. 箱型图 4. 基于模型检测 5. 基于近邻度的离群点检测 6. 基于聚类的方法来做异常点检测 7. 专门的离群点检测 3 异常值的处理方法 4 异常值总结 1 什么是异常值? 在机器学习中,异常检测和处理是一个比较小的分支,或者说,是机器学习的一个副产物,因为在一般的预测问题中,模型通常是对整体样本数据结构的一种表达方式,这种表达方式通常抓住的是整体样本一般性的性质,而那些在这些性质上表现完全与整体样本不一致的

  • Python基础之文件读取的讲解

    with open(filename) as fp: dataMat = [] for line in fp.readlines(): # fp.readlines()返回一个list,list of strs # 也即line类型为`str` curLine = line.strip().split('\t') # 只有`str`类型才有strip()成员函数, # 在经过split()分割,得到list类型 # 也即curLine类型为list # curLine 仍然是由字符串构成的lis

随机推荐