pandas的Series类型与基本操作详解

1 Series

线性的数据结构, series是一个一维数组

Pandas 会默然用0到n-1来作为series的index, 但也可以自己指定index( 可以把index理解为dict里面的key )

1.1创造一个serise数据

import pandas as pd
import numpy as np
​s = pd.Series([9, 'zheng', 'beijing', 128])
​print(s)

打印

0 9
1 zheng
2 beijing
3 128
dtype: object

访问其中某个数据

print(s[1:2])
​
# 打印
1 zheng
dtype: object

Series类型的基本操作:

Series类型包括index和values两部分

In [14]: a = pd.Series({'a':1,'b':5})

In [15]: a.index
Out[15]: Index(['a', 'b'], dtype='object')

In [16]: a.values #返回一个多维数组numpy对象
Out[16]: array([1, 5], dtype=int64)

Series类型的操作类似ndarray类型

#自动索引和自定义索引并存,但不能混用
In [17]: a[0] #自动索引
Out[17]: 1
#自定义索引
In [18]: a['a']
Out[18]: 1
#不能混用
In [20]: a[['a',1]]
Out[20]:
a 1.0
1 NaN
dtype: float64

Series类型的操作类似Python字典类型

#通过自定义索引访问
#对索引保留字in操作,值不可以
In [21]: 'a' in a
Out[21]: True

In [22]: 1 in a
Out[22]: False

Series类型在运算中会自动对齐不同索引的数据

In [29]: a = pd.Series([1,3,5],index = ['a','b','c'])

In [30]: b = pd.Series([2,4,5,6],index = ['c,','d','e','b'])

In [31]: a+b
Out[31]:
a  NaN
b  9.0
c  NaN
c, NaN
d  NaN
e  NaN
dtype: float64

Series对象可以随时修改并即刻生效

In [32]: a.index = ['c','d','e']

In [33]: a
Out[33]:
c 1
d 3
e 5
dtype: int64

In [34]: a+b
Out[34]:
b  NaN
c  NaN
c,  NaN
d  7.0
e  10.0
dtype: float64

1.2 指定index

import pandas as pd
import numpy as np
​s = pd.Series([9, 'zheng', 'beijing', 128, 'usa', 990], index=[1,2,3,'e','f','g'])​
print(s)

打印

1 9
2 zheng
3 beijing
e 128
f usa
g 990
dtype: object

根据索引找出值

print(s['f']) # usa

1.3 用dictionary构造一个series

import pandas as pd
import numpy as np
s = {"ton": 20, "mary": 18, "jack": 19, "car": None}
sa = pd.Series(s, name="age")​
print(sa)

打印

car NaN
jack 19.0
mary 18.0
ton 20.0
Name: age, dtype: float64

检测类型

print(type(sa)) # <class 'pandas.core.series.Series'>

1.4 用numpy ndarray构造一个Series

生成一个随机数

import pandas as pd
import numpy as np
​
num_abc = pd.Series(np.random.randn(5), index=list('abcde'))
num = pd.Series(np.random.randn(5))
​
print(num)
print(num_abc)
​
# 打印
0   -0.102860
1   -1.138242
2    1.408063
3   -0.893559
4    1.378845
dtype: float64
a   -0.658398
b    1.568236
c    0.535451
d    0.103117
e   -1.556231
dtype: float64

1.5 选择数据

import pandas as pd
import numpy as np
​
s = pd.Series([9, 'zheng', 'beijing', 128, 'usa', 990], index=[1,2,3,'e','f','g'])
​
print(s[1:3])  # 选择第1到3个, 包左不包右 zheng beijing
print(s[[1,3]])  # 选择第1个和第3个, zheng 128
print(s[:-1]) # 选择第1个到倒数第1个, 9 zheng beijing 128 usa

1.6 操作数据

import pandas as pd
import numpy as np​
s = pd.Series([9, 'zheng', 'beijing', 128, 'usa', 990], index=[1,2,3,'e','f','g'])

sum = s[1:3] + s[1:3]
sum1 = s[1:4] + s[1:4]
sum2 = s[1:3] + s[1:4]
sum3 = s[:3] + s[1:]​
print(sum)
print(sum1)
print(sum2)
print(sum3)

打印

2        zhengzheng
3    beijingbeijing
dtype: object
2        zhengzheng
3    beijingbeijing
e               256
dtype: object
2        zhengzheng
3    beijingbeijing
e               NaN
dtype: object
1               NaN
2        zhengzheng
3    beijingbeijing
e               NaN
f               NaN
g               NaN
dtype: object

1.7 查找

是否存在

USA in s # true

范围查找

import pandas as pd
import numpy as np

s = {"ton": 20, "mary": 18, "jack": 19, "jim": 22, "lj": 24, "car": None}

sa = pd.Series(s, name="age")

print(sa[sa>19])

中位数

import pandas as pd
import numpy as np

s = {"ton": 20, "mary": 18, "jack": 19, "jim": 22, "lj": 24, "car": None}

sa = pd.Series(s, name="age")

print(sa.median()) # 20

判断是否大于中位数

import pandas as pd
import numpy as np

s = {"ton": 20, "mary": 18, "jack": 19, "jim": 22, "lj": 24, "car": None}

sa = pd.Series(s, name="age")

print(sa>sa.median())

找出大于中位数的数

import pandas as pd
import numpy as np

s = {"ton": 20, "mary": 18, "jack": 19, "jim": 22, "lj": 24, "car": None}

sa = pd.Series(s, name="age")

print(sa[sa > sa.median()])

中位数

import pandas as pd
import numpy as np

s = {"ton": 20, "mary": 18, "jack": 19, "jim": 22, "lj": 24, "car": None}

sa = pd.Series(s, name="age")

more_than_midian = sa>sa.median()

print(more_than_midian)

print('---------------------')

print(sa[more_than_midian])

1.8 Series赋值

import pandas as pd
import numpy as np

s = {"ton": 20, "mary": 18, "jack": 19, "jim": 22, "lj": 24, "car": None}

sa = pd.Series(s, name="age")

print(s)

print('----------------')

sa['ton'] = 99

print(sa)

1.9 满足条件的统一赋值

import pandas as pd
import numpy as np

s = {"ton": 20, "mary": 18, "jack": 19, "jim": 22, "lj": 24, "car": None}

sa = pd.Series(s, name="age")

print(s) # 打印原字典

print('---------------------') # 分割线

sa[sa>19] = 88 # 将所有大于19的同一改为88

print(sa) # 打印更改之后的数据

print('---------------------') # 分割线

print(sa / 2) # 将所有数据除以2

到此这篇关于pandas的Series类型与基本操作详解的文章就介绍到这了,更多相关pandas Series基本操作内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Python3.5 Pandas模块之Series用法实例分析

    本文实例讲述了Python3.5 Pandas模块之Series用法.分享给大家供大家参考,具体如下: 1.Pandas模块引入与基本数据结构 2.Series的创建 #!/usr/bin/env python # -*- coding:utf-8 -*- # Author:ZhengzhengLiu #模块引入 import numpy as np import pandas as pd from pandas import Series,DataFrame #1.Series通过numpy一

  • 浅谈Pandas Series 和 Numpy array中的相同点

    相同点: 可以利用中括号获取元素 s[0] 可以的得到单个元素 或 一个元素切片 s[3,7] 可以遍历 for x in s 可以调用同样的函数获取最大最小值 s.mean()  s.max() 可以用向量运算 <1 + s> 和Numpy一样, Pandas Series 也是用C语言, 因此它比Python列表的运算更快 以上这篇浅谈Pandas Series 和 Numpy array中的相同点就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们.

  • python pandas 对series和dataframe的重置索引reindex方法

    reindex更多的不是修改pandas对象的索引,而只是修改索引的顺序,如果修改的索引不存在就会使用默认的None代替此行.且不会修改原数组,要修改需要使用赋值语句. series.reindex() import pandas as pd import numpy as np obj = pd.Series(range(4), index=['d', 'b', 'a', 'c']) print obj d 0 b 1 a 2 c 3 dtype: int64 print obj.reinde

  • pandas 对series和dataframe进行排序的实例

    本问主要写根据索引或者值对series和dataframe进行排序的实例讲解 代码: #coding=utf-8 import pandas as pd import numpy as np #以下实现排序功能. series=pd.Series([3,4,1,6],index=['b','a','d','c']) frame=pd.DataFrame([[2,4,1,5],[3,1,4,5],[5,1,4,2]],columns=['b','a','d','c'],index=['one','

  • 浅谈Pandas:Series和DataFrame间的算术元素

    如下所示: import numpy as np import pandas as pd from pandas import Series,DataFrame 一.Series与Series s1 = Series([1,3,5,7],index=['a','b','c','d']) s2 = Series([2,4,6,8],index=['a','b','c','e']) 索引对齐项相加,不对齐项的值取NaN s1+s2 1 a 3.0 b 7.0 c 11.0 d NaN e NaN d

  • python pandas中对Series数据进行轴向连接的实例

    有时候我们想要的数据合并结果是数据的轴向连接,在pandas中这可以通过concat来实现.操作的对象通常是Series. Ipython中的交互代码如下: In [17]: from pandas import Series,DataFrame In [18]: series1 = Series(range(2),index = ['a','b']) In [19]: series2 = Series(range(3),index = ['c','d','e']) In [20]: serie

  • pandas 数据结构之Series的使用方法

    1. Series Series 是一个类数组的数据结构,同时带有标签(lable)或者说索引(index). 1.1 下边生成一个最简单的Series对象,因为没有给Series指定索引,所以此时会使用默认索引(从0到N-1). # 引入Series和DataFrame In [16]: from pandas import Series,DataFrame In [17]: import pandas as pd In [18]: ser1 = Series([1,2,3,4]) In [1

  • pandas中的series数据类型详解

    本文介绍了pandas中的series数据类型详解,分享给大家,具体如下: import pandas as pd import numpy as np import names ''' 写在前面的话: 1.series与array类型的不同之处为series有索引,而另一个没有;series中的数据必须是一维的,而array类型不一定 2.可以把series看成一个定长的有序字典,可以通过shape,index,values等得到series的属性 ''' # 1.series的创建 '''

  • Pandas把dataframe或series转换成list的方法

    把dataframe转换为list 输入多维dataframe: df = pd.DataFrame({'a':[1,3,5,7,4,5,6,4,7,8,9], 'b':[3,5,6,2,4,6,7,8,7,8,9]}) 把a列的元素转换成list: # 方法1df['a'].values.tolist() # 方法2df['a'].tolist() 把a列中不重复的元素转换成list: df['a'].drop_duplicates().values.tolist() 输入一维datafram

  • 使用Pandas的Series方法绘制图像教程

    通常绘制二维曲线的时候可以使用matplotlib,不过如果电脑上安装了pandas的话可以直接使用Series的绘图方法进行图像的绘制. pandas绘制图像其实也是给予matplotlib的绘图功能处理相应的数据,最终绘制出相应的曲线. 在图形对象创建并操作之后还需要调用matplotlib的图像显示方法才能够最终显示出绘制的图像. 编写代码如下: import pandas as pd from pandas import Series,DataFrame import numpy as

  • pandas series序列转化为星期几的实例

    series序列中每个元素都是带有日期形式的字符串,需要将其转化为一个同等大小的series,且其中每个元素都是星期几. 1)将Series转化为datetime格式: 2)将Series中每个元素转化为星期: time_list = ["2017-05-10 17:19:19", "2017-05-11 17:19:20", "2017-05-12 17:19:20", "2017-05-13 17:19:20"] time

  • 在python中pandas的series合并方法

    如下所示: In [3]: import pandas as pd In [4]: a = pd.Series([1,2,3]) In [5]: b = pd.Series([2,3,4]) In [6]: c = pd.DataFrame([a,b]) In [7]: c Out[7]: 0 1 2 0 1 2 3 1 2 3 4 不过pandas直接用列表生成dataframe只能按行生成,如果是字典可以按列生成,比如: In [8]: c = pd.DataFrame({'a':a,'b'

随机推荐