浅析Python数据处理

2025-02-08 04:59:39

Numpy、Pandas是Python数据处理中经常用到的两个框架，都是采用C语言编写，所以运算速度快。Matplotlib是Python的的画图工具，可以把之前处理后的数据通过图像绘制出来。之前只是看过语法，没有系统学习总结过，本博文总结了这三个框架的API。

以下是这三个框架的的简单介绍和区别：

Numpy：经常用于数据生成和一些运算
Pandas：基于Numpy构建的，是Numpy的升级版本
Matplotlib：Python中强大的绘图工具

Numpy

Numpy快速入门教程可参考：Numpy tutorial

Numpy属性

ndarray.ndim：维度

ndarray.shape：行数和列数，例如(3, 5)

ndarray.size：元素的个数

ndarray.dtype：元素类型

Numpy创建

array(object, dtype=None)：使用Python的list或者tuple创建数据

zeors(shape, dtype=float)：创建全为0的数据

ones(shape, dtype=None)：创建全为1的数据

empty(shape, dtype=float)：创建没有初始化的数据

arange([start, ]stop, [step, ]dtype=None)：创建固定间隔的数据段

linspace(start, stop, num=50, dtype=None)：在给定的范围，均匀的创建数据

Numpy运算

加、减：a + b、a - b

乘：b*2、10*np.sin(a)

次方：b**2

判断：a<35，输出True或False的数组

矩阵乘：np.dot(A,B) 或 A.dot(B)

其他：+=、-+、sin、cos、exp

Numpy索引

数组索引方式：A[1, 1]

切片：A[1, 1:3]

迭代：for item in A.flat

Numpy其他

reshape(a, newshape)：改变数据形状，不会对原始数据进行修改，返回一组新数据

resize(a, new_shape)：改变数据形状，会对原始数据进行修改，不返回数据

ravel(a)：将成一维返回

vstack(tup)：上下合并

hstack(tup)：左右合并

hsplit(ary, indices_or_sections)：水平分割n份

vsplit(ary, indices_or_sections)：垂直分割n份

copy(a)：深度拷贝

Pandas

Pandas快速入门教程可参考：10 Minutes to pandas

Pandas数据结构

Pandas的数据结构有两种：Series和DataFrame。

Series：索引在左边，值在右边。创建方式如下：

In [4]: s = pd.Series([1,3,5,np.nan,6,8])
In [5]: s
Out[5]:
0  1.0
1  3.0
2  5.0
3  NaN
4  6.0
5  8.0
dtype: float64

DataFrame：是一个表格型的数据结构，既有行索引也有列索引，它可以被看做由Series组成的大字典。创建方式如下：

In [6]: dates = pd.date_range('20130101', periods=6)

In [7]: dates
Out[7]:
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
        '2013-01-05', '2013-01-06'],
       dtype='datetime64[ns]', freq='D')

In [8]: df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))

Pandas查看数据

index：索引

columns：列索引

values：值

head(n=5)：返回前n项数据

tail(n=5)：返回后n项数据

describe()：打印出数据的数量、平均值等各项数据

sort_index(axis=1, ascending=False)：根据索引排序

sort_values(by='B')：根据索引值排序

Pandas选择数据

数组选择方式：df[‘A']

切片选择方式：df[0:3] 或 df[‘20130102':'20130104']

根据标签选择：df.loc[‘20130102':'20130104',[‘A','B']]

根据位置选择：df.iloc[3:5,0:2]

混合选择：df.ix[:3,[‘A','C']]

条件判断选择：df[df.A > 0]

Pandas处理丢失数据

删除丢失数据的行：df.dropna(how='any')

填充丢失数据：df.fillna(value=5)

数据值是否为NaN：pd.isna(df1)

Pandas合并数据

pd.concat([df1, df2, df3], axis=0)：合并df

pd.merge(left, right, on='key')：根据key字段合并

df.append(s, ignore_index=True)：添加数据

Pandas导入导出

df.to_csv(‘foo.csv')：保存到csv文件

pd.read_csv(‘foo.csv')：从csv文件读取

df.to_excel(‘foo.xlsx', sheet_name='Sheet1')：保存到excel文件

pd.read_excel(‘foo.xlsx', ‘Sheet1', index_col=None, na_values=[‘NA'])：从excel文件读取

Matplotlib

这里只介绍最简单的出图方式：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 随机生成1000个数据
data = pd.Series(np.random.randn(1000),index=np.arange(1000))
# 为了方便观看效果, 我们累加这个数据
data.cumsum()
# pandas 数据可以直接观看其可视化形式
data.plot()
plt.show()

您可能感兴趣的文章:

对python .txt文件读取及数据处理方法总结
Python 数据处理库 pandas进阶教程
Python 数据处理库 pandas 入门教程基本操作
Python数据处理numpy.median的实例讲解
python数据处理实战(必看篇)
基于python爬虫数据处理(详解)
python实现爬虫统计学校BBS男女比例之数据处理（三）
从零学python系列之数据处理编程实例（二）
从零学python系列之数据处理编程实例（一）

对python .txt文件读取及数据处理方法总结

1.处理包含数据的文件最近利用Python读取txt文件时遇到了一个小问题,就是在计算两个np.narray()类型的数组时,出现了以下错误: TypeError: ufunc 'subtract' did not contain a loop with signature matching types dtype('<U3') dtype('<U3') dtype('<U3') 作为一个Python新手,遇到这个问题后花费了挺多时间,在网上找了许多大神们写的例子,最后终于解决了. 总
Python 数据处理库 pandas 入门教程基本操作

pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库.本文是对它的一个入门教程. pandas提供了快速,灵活和富有表现力的数据结构,目的是使"关系"或"标记"数据的工作既简单又直观.它旨在成为在Python中进行实际数据分析的高级构建块. 入门介绍 pandas适合于许多不同类型的数据,包括: 具有异构类型列的表格数据,例如SQL表格或Excel数据有序和无序(不一定是固定频率)时间序列数据.
基于python爬虫数据处理(详解)

一.首先理解下面几个函数设置变量 length()函数 char_length() replace() 函数 max() 函数 1.1.设置变量 set @变量名=值 set @address='中国-山东省-聊城市-莘县'; select @address 1.2 .length()函数 char_length()函数区别 select length('a') ,char_length('a') ,length('中') ,char_length('中') 1.3. replace() 函数
从零学python系列之数据处理编程实例（一）

要求:分别以james,julie,mikey,sarah四个学生的名字建立文本文件,分别存储各自的成绩,时间格式都精确为分秒,时间越短成绩越好,分别输出每个学生的无重复的前三个最好成绩,且分秒的分隔符要统一为"." 数据准备:分别建立四个文本文件 james.txt 2-34,3:21,2.34,2.45,3.01,2:01,2:01,3:10,2-22 julie.txt 2.59,2.11,2:11,2:23,3-10,2-23,3:10,3.21,3-21
Python 数据处理库 pandas进阶教程

前言本文紧接着前一篇的入门教程,会介绍一些关于pandas的进阶知识.建议读者在阅读本文之前先看完pandas入门教程. 同样的,本文的测试数据和源码可以在这里获取: Github:pandas_tutorial. 数据访问在入门教程中,我们已经使用过访问数据的方法.这里我们再集中看一下. 注:这里的数据访问方法既适用于Series,也适用于DataFrame. 基础方法:[]和. 这是两种最直观的方法,任何有面向对象编程经验的人应该都很容易理解.下面是一个代码示例: # select_da
Python数据处理numpy.median的实例讲解

numpy模块下的median作用为: 计算沿指定轴的中位数返回数组元素的中位数其函数接口为: median(a, axis=None, out=None, overwrite_input=False, keepdims=False) 其中各参数为: a:输入的数组: axis:计算哪个轴上的中位数,比如输入是二维数组,那么axis=0对应行,axis=1对应列: out:用于放置求取中位数后的数组. 它必须具有与预期输出相同的形状和缓冲区长度: overwrite_input:一个bool
从零学python系列之数据处理编程实例（二）

在上一节从零学python系列之数据处理编程实例(一)的基础上数据发生了变化,文件中除了学生的成绩外,新增了学生姓名和出生年月的信息,因此将要成变成:分别根据姓名输出每个学生的无重复的前三个最好成绩和出生年月数据准备:分别建立四个文本文件 james2.txt James Lee,2002-3-14,2-34,3:21,2.34,2.45,3.01,2:01,2:01,3:10,2-22 julie2.txt Julie Jones,2002-8-17,2.59,2.11
python数据处理实战(必看篇)

一.运行环境 1.python版本 2.7.13 博客代码均是这个版本 2.系统环境:win7 64位系统二.需求对杂乱文本数据进行处理部分数据截图如下,第一个字段是原字段,后面3个是清洗出的字段,从数据库中聚合字段观察,乍一看数据比较规律,类似(币种金额万元)这样,我想着用sql写条件判断,统一转换为'万元人民币' 单位,用sql脚本进行字符串截取即可完成,但是后面发现数据并不规则,条件判断太多清洗质量也不一定,有的前面不是左括号,有的字段里面没有币种,有的数字并不是整数,有的没有万
python实现爬虫统计学校BBS男女比例之数据处理（三）

本文主要介绍了数据处理方面的内容,希望大家仔细阅读. 一.数据分析得到了以下列字符串开头的文本数据,我们需要进行处理二.回滚我们需要对httperror的数据进行再处理因为代码的原因,具体可见本系列文章(二),会导致文本里面同一个id连续出现几次httperror记录: //httperror265001_266001.txt 265002 httperror 265002 httperror 265002 httperror 265002 httperror 265003 httper
浅析Python数据处理

Numpy.Pandas是Python数据处理中经常用到的两个框架,都是采用C语言编写,所以运算速度快.Matplotlib是Python的的画图工具,可以把之前处理后的数据通过图像绘制出来.之前只是看过语法,没有系统学习总结过,本博文总结了这三个框架的API. 以下是这三个框架的的简单介绍和区别: Numpy:经常用于数据生成和一些运算 Pandas:基于Numpy构建的,是Numpy的升级版本 Matplotlib:Python中强大的绘图工具 Numpy Numpy快速入门教程可参考:Nu
浅析Python中的for 循环

Python for 和其他语言一样,也可以用来循环遍历对象,本文章向大家介绍Python for 循环的使用方法和实例,需要的朋友可与参考一下. 一个循环是一个结构,导致第一个程序要重复一定次数.重复不断循环的条件仍是如此.当条件变为假,循环结束和程序的控制传递给后面的语句循环. for循环: 在Python for循环遍历序列的任何物品,如一个列表或一个字符串,有能力. for循环语法是: for iterating_var in sequence: statements(s) 如果一个序列
浅析Python 中整型对象存储的位置

在 Python 整型对象所存储的位置是不同的, 有一些是一直存储在某个存储里面, 而其它的, 则在使用时开辟出空间. 说这句话的理由, 可以看看如下代码: a = 5 b = 5 a is b # True a = 500 b = 500 a is b # False 由上面的代码可知, 整型 5 是一直存在的, 而整型 500 不是一直存在的. 那么有哪些整数是一直存储的呢? a, b, c = 0, 0, 0 while a is b: i += 1 a, b = int(str(i)),
浅析python中的分片与截断序列

序列概念在分片规则里list.tuple.str(字符串)都可以称为序列,都可以按规则进行切片操作切片操作注意切片的下标0代表顺序的第一个元素,-1代表倒序的第一个元素:且切片不包括右边界,例如[0:3]代表元素0.1.2不包括3. l=['a','b','c','d',5] 1.获取列表的前3个元素 >>> l[0:3] ['a', 'b', 'c'] >>> l[:3] ['a', 'b', 'c'] 2.获取列表的后3个元素 >>> l[-
深入浅析python中的多进程、多线程、协程

进程与线程的历史我们都知道计算机是由硬件和软件组成的.硬件中的CPU是计算机的核心,它承担计算机的所有任务. 操作系统是运行在硬件之上的软件,是计算机的管理者,它负责资源的管理和分配.任务的调度. 程序是运行在系统上的具有某种功能的软件,比如说浏览器,音乐播放器等. 每次执行程序的时候,都会完成一定的功能,比如说浏览器帮我们打开网页,为了保证其独立性,就需要一个专门的管理和控制执行程序的数据结构--进程控制块. 进程就是一个程序在一个数据集上的一次动态执行过程. 进程一般由程序.数据集.进程控
浅析python协程相关概念

这篇文章是读者朋友的python协程的学习经验之谈,以下是全部内容: 协程的历史说来话长,要从生成器开始讲起. 如果你看过我之前的文章python奇遇记:迭代器和生成器 ,对生成器的概念应该很了解.生成器节省内存,用的时候才生成结果. # 生成器表达式 a = (x*x for x in range(10)) # next生成值 next(a()) # 输出0 next(a()) # 输出1 next(a()) # 输出4 与生成器产出数据不同的是,协程在产出数据的同时还可以接收数据,具体来说就

浅析Python数据处理

您可能感兴趣的文章:

相关推荐

随机推荐