详解pandas的外部数据导入与常用方法

2025-04-04 18:07:12

外部数据导入

导入excel文件

pandas导入excel用read_excel()方法：

import pandas as pd

excel_file1 = pd.read_excel('data/测试.xlsx',encoding='utf-8')

姓名年龄    工作    工资
0   张三 25    学生      200
1   李四 24    工人     3000
2   王伟 28    NaN      5000
3 王二毛 22 自由职业   6000

第一个参数是路径，既可以使用绝对路径又可以使用相对路径，如果文件名含有汉字，注意指定设置一下属性encoding = 'utf-8',另设置sheet_name指定具体的Sheet名字，也可传入sheet的顺序，从0开始。

excel_file1 = pd.read_excel('data/test.xlsx',sheet_name = 0)

指定索引

列索引默认从0开始，通过index_col设置，header设置行索引。

excel_file1 = pd.read_excel('data/测试.xlsx',encoding='utf-8'，index_col=0)

年龄    工作    年资
姓名
张三   25    学生      200
李四   24    工人     3000
王伟   28   NaN       5000
王二毛 22 自由职业   6000

excel_file1 = pd.read_excel('data/测试.xlsx',encoding='utf-8'，header=1)

张三 25    学生     200
0   李四 24    工人    3000
1   王伟 28   NaN      5000
2 王二毛 22 自由职业 6000

指定索引列

有时本地文件列数太多，可以设置usercols指定导入的列,也可以列表形式传入多个值，表示传入哪些列。

excel_file1 = pd.read_excel('data/测试.xlsx',encoding='utf-8',usecols=[0,2])

姓名    工作
0   张三    学生
1   李四    工人
2   王伟    NaN
3 王二毛自由职业

常用方法

shape() 可以获取excel文件的行和列，以元祖形式返回；
info() 获取数据类型；
astype() 可转换列里面的数据类型，括号里是要转换的目标类型；如 df[列2].astype('float64') ; df['列'].dtype 可查看列的类型
isnull() 判断哪个值是缺失值；
dropna() 删除有缺失值的行，返回删除后的数据，传入参数how=all,要全为空值才会删除；
fillna() 括号内可直接填入要要填充的值，也可指定列填充，以字典形式传参；
drop_duplicates() 默认对所有重复值判断，默认保留 keep=first 第一个行值；通过 keep 修改，值可为 last ，保留最后一个，还可设置 keep 为 False ,一个也不保留。另也可指定列名去重，如传入参数 subset =['列名1，列名2']，注意是以列表形式传参；
head() 传入的参数代表获取前几行；
describe() 掌握数值的分布情况，如均值，最值，方差，分位数。
column 和 index 可设置列索引和行索引，以列表形式传参;
set_index() 重新设置索引列，传入要指名要用做行索引的名称；
reset_index(level = None,drop=False,inplace = False) ，level指定要将层次化索引的第几级别转化为 columns ,第一个索引为0级，第二个为1级，默认全部转化为columns。 drop 是否将原索引删掉， inplace 是否修改原数据表；该方法常用于数据分组和数据透视表中。
rename() 重命名索引，可重新设置 columns 和 index ,以字典形式传参， key 为原值， value 为替换后的值。

导入CSV文件

pandas导入csv文件用read_csv()方法；

import pandas as pd
csv_file1 = pd.read_csv('.\\data\\train-pivot.csv',index_col=0,header=0,nrows = 2)

通过 sep 设置分割符， encoding 指定编码格式。导入csv文件要指定为gbk,不然会报错，如果一个大文件你只需看前面几行，通过 nrows 设置。

import pandas as pd
csv_file1 = pd.read_csv('data/train-pivot.csv',encoding='gbk',nrows=2)
print(csv_file1)

用户ID 客户分类    区域是否省会 7月销量 8月销量
0 59224   A类一线城市    是     6    20     0
1 55295   B类三线城市    否    37    27    35

可以设置 usercols 指定导入的列。

用户ID 区域
0 59224 一线城市
1 55295 三线城市
2 46035 二线城市
3 2459 一线城市
4 22179 三线城市

导入sql

pandas中有 read_sql() 方法：

import pandas as pd
import pymysql
# 创建连接
conn = pymysql.connect(host = 'localhost',user = 'python',
            password = 'passwd',db = 'test',
            charset = 'utf-8'
            )
'''
user:用户名
password:密码
host:数据库地址/本机用localhost
db:数据库名
charset:编码，一般为utf-8
'''
sql = "SELECT * FROM user" # 写要执行的sql语句
pd.read_sql(sql,conn)

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

Python实现多进程导入CSV数据到 MySQL

前段时间帮同事处理了一个把 CSV 数据导入到 MySQL 的需求.两个很大的 CSV 文件, 分别有 3GB.2100 万条记录和 7GB.3500 万条记录.对于这个量级的数据,用简单的单进程/单线程导入会耗时很久,最终用了多进程的方式来实现.具体过程不赘述,记录一下几个要点: 批量插入而不是逐条插入为了加快插入速度,先不要建索引生产者和消费者模型,主进程读文件,多个 worker 进程执行插入注意控制 worker 的数量,避免对 MySQL 造成太大的压力注意处理脏数据导致的异
Python导入oracle数据的方法

本文实例讲述了Python导入oracle数据的方法.分享给大家供大家参考.具体如下: import cx_Oracle dns_tns=cx_Oracle.makedsn("192.168.0.288",1521,"skynet") print dns_tns con = cx_Oracle.connect('alibaba', 'zhimakamen', dns_tns) cur=con.cursor() for index,line in enumerate(
使用python将mdb数据库文件导入postgresql数据库示例

mdb格式文件可以通过mdbtools工具将内中包含的每张表导出到csv格式文件.由于access数据库和postgresQL数据库格式上会存在不通性,所以使用python的文件处理,将所得csv文件修改成正确.能识别的格式. 导入脚本说明(此脚本运行于linux): 1.apt-get install mdbtools,安装mdbtools工具 2.将mdb 文件拷贝到linux虚拟机中,修改脚本中mdb文件目录'dir' 3.修改服务器及数据库配置 4.执行脚本复制代码代码如下: # -
Python之csv文件从MySQL数据库导入导出的方法

Python从MySQL数据库中导出csv文件处理 csv文件导入MySQL数据库 import pymysql import csv import codecs def get_conn(): conn = pymysql.connect(host='localhost', port=3306, user='root', passwd='root', db='test_csv', charset='utf8') return conn def insert(cur, sql, args): c
Python导入txt数据到mysql的方法

本文实例讲述了Python导入txt数据到mysql的方法.分享给大家供大家参考.具体分析如下: 从TXT文本转换数据到MYSQL数据库,接触一段时间python了第一次写东西用的是Python2.7 #!/usr/bin/python #coding=utf-8 import _mysql,sys,io def addCity(prov,city,tel,post): try: conn=_mysql.connect("192.168.1.99",'php','php'); co
Python制作数据导入导出工具

python 2.6编写,自己瞎写的,备用 ''' Export and Import ElasticSearch Data. Simple Example At __main__ @author: wgzh159@163.com @note: uncheck consistency of data, please do it by self ''' import json import os import sys import time import urllib2 reload(sys) s
python Django批量导入数据

前言: 这期间有研究了Django网页制作过程中,如何将数据批量导入到数据库中. 这个过程真的是惨不忍睹,犯了很多的低级错误,这会在正文中说到的.再者导入数据用的是py脚本,脚本内容参考至自强学堂--中级教程--数据导入. 注:本文主要介绍自己学习的经验总结,而非教程! 正文:首先说明采用Django中bulk_create()函数来实现数据批量导入功能,为什么会选择它呢? 1 bulk_create()是执行一条SQL存入多条数据,使得导入速度更快; 2 bulk_create()减少了SQ
python Django批量导入不重复数据

本文为大家分享了python Django批量导入不重复数据的实现代码,供大家参考,具体内容如下程序如下: #coding:utf-8 import os os.environ.setdefault("DJANGO_SETTINGS_MODULE", "www.settings") ''' Django 版本大于等于1.7的时候,需要加上下面两句 import django django.setup() 否则会抛出错误 django.core.exceptions
详解pandas的外部数据导入与常用方法

外部数据导入导入excel文件 pandas导入excel用read_excel()方法: import pandas as pd excel_file1 = pd.read_excel('data/测试.xlsx',encoding='utf-8') 姓名年龄工作工资 0 张三 25 学生 200 1 李四 24 工人 3000 2 王伟 28 NaN 5000 3 王二毛 22 自由职业 6000
详解PostgreSQL提升批量数据导入性能的n种方法

关键字:批量数据导入,数据加载,大量插入,加快,提升速度多元化选择时代,人生里很多事物都是如此,凡事都没有一成不变的方式和方法.不管白猫黑猫,能抓老鼠的就是好猫,适合自己的就是最好的. 提升批量数据导入的方法亦是如此,没有何种方法是最优的,应用任何方法前根据自己的实际情况权衡利弊,做出选择. 批量导入数据之前,无论采取何种方式,务必做好相应的备份. 导入完成后亦需对相应对象进行ANALYZE操作,这样查询优化器才会按照最新的统计信息生成正确的执行计划. 下面正式介绍提升批量数据导入性能的n种方
详解pandas删除缺失数据(pd.dropna()方法)

1.创建带有缺失值的数据库: import pandas as pd import numpy as np df = pd.DataFrame(np.random.randn(5, 3), index = list('abcde'), columns = ['one', 'two', 'three']) # 随机产生5行3列的数据 df.ix[1, :-1] = np.nan # 将指定数据定义为缺失 df.ix[1:-1, 2] = np.nan print('\ndf1') # 输出df1,
详解pandas中利用DataFrame对象的.loc[]、.iloc[]方法抽取数据

pandas的DataFrame对象,本质上是二维矩阵,跟常规二维矩阵的差别在于前者额外指定了每一行和每一列的名称.这样内部数据抽取既可以用"行列名称(对应.loc[]方法)",也可以用"矩阵下标(对应.iloc[]方法)"两种方式进行. 下面具体说明: (以下程序均在Jupyter notebook中进行,部分语句的print()函数省略) 首先生成一个DataFrame对象: import pandas as pd score = [[34,67,87],[68
详解Pandas如何高效对比处理DataFrame的两列数据

目录楔子 combine_first combine update 楔子我们在用 pandas 处理数据的时候,经常会遇到用其中一列数据替换另一列数据的场景.比如 A 列和 B 列,对 A 列中不为空的数据不作处理,对 A 列中为空的数据使用 B 列对应索引的数据进行替换.这一类的需求估计很多人都遇到,当然还有其它更复杂的. 解决这类需求的办法有很多,这里我们来推荐几个. combine_first 这个方法是专门用来针对空值处理的,我们来看一下用法. import pandas as pd
详解pandas中缺失数据处理的函数

目录一.缺失值类型 1.np.nan 2.None 3.NA标量二.缺失值判断 1.对整个dataframe判断缺失 2.对某个列判断缺失三.缺失值统计 1.列缺失 2.行缺失 3.缺失率四.缺失值筛选五.缺失值填充六.缺失值删除 1.全部直接删除 2.行缺失删除 3.列缺失删除 4.按缺失率删除七.缺失值参与计算 1.加法 2.累加 3.计数 4.聚合分组五.源码今天分享一篇pandas缺失值处理的操作指南! 一.缺失值类型在pandas中,缺失数据显示为NaN.缺失值有3
详解pandas中iloc, loc和ix的区别和联系

Pandas库十分强大,但是对于切片操作iloc, loc和ix,很多人对此十分迷惑,因此本篇博客利用例子来说明这3者之一的区别和联系,尤其是iloc和loc. 对于ix,由于其操作有些复杂,我在另外一篇博客专门详细介绍ix. 首先,介绍这三种方法的概述: loc gets rows (or columns) with particular labels from the index. loc从索引中获取具有特定标签的行(或列).这里的关键是:标签.标签的理解就是name名字. iloc get
详解pandas.DataFrame.plot() 画图函数

首先看官网的DataFrame.plot( )函数 DataFrame.plot(x=None, y=None, kind='line', ax=None, subplots=False, sharex=None, sharey=False, layout=None,figsize=None, use_index=True, title=None, grid=None, legend=True, style=None, logx=False, logy=False, loglog=False,
详解Pandas 处理缺失值指令大全

前言运用pandas 库对所得到的数据进行数据清洗,复习一下相关的知识. 1 数据清洗 1.1 处理缺失数据对于数值型数据,分为缺失值(NAN)和非缺失值,对于缺失值的检测,可以通过Python中pandas库的Series类对象的isnull方法进行检测. import pandas as pd import numpy as np string_data = pd.Series(['Benzema', 'Messi', np.nan, 'Ronaldo']) string_data.is
详解pandas赋值失败问题解决

一.pandas对整列赋值这个比较正常,一般直接赋值就可以: x = pd.DataFrame({'A': ['1', '2', '3', None, None], 'B': ['4', '5', '6', '7', None]}) x['A'] = ['10', '11', '12', '13', '14'] 二.pandas对非整列赋值 1.用单个值赋值 x = pd.DataFrame({'A': ['1', '2', '3', None, None], 'B': ['4', '5',

详解pandas的外部数据导入与常用方法

相关推荐

随机推荐