pandas学习之df.set_index的具体使用

2024-12-25 09:27:08

构建实例

import pandas as pd
df = pd.DataFrame(data={'height':[178,171,185,196],'weight':[156,90,140,142],
                        'name':['小王','小明','小绿','小红']})
df

    height    weight    name
0    178        156        小王
1    171        90        小明
2    185        140        小绿
3    196        142        小红

key：label array-like or list of label/arrays

需要设置成索引的数据，可以使一个标签，数组，或者标签或数组的列表

df.set_index('name')#指定某一列为索引

    height    weight
name        
小王    178        156
小明    171        90
小绿    185        140
小红    196        142

drop：bool，default True

是否删除作为索引使用的列，默认True,即删除做为索引的列

df.set_index('name',drop=False)

        height    weight    name
name            
小王    178        156        小王
小明    171        90        小明
小绿    185        140        小绿
小红    196        142        小红

append:bool default False

将序列添加到索引中，形成多级序列

df.set_index(df['name'],append = True)

            height    weight    name
    name            
0    小王    178        156        小王
1    小明    171        90        小明
2    小绿    185        140        小绿
3    小红    196        142        小红
# 前两列都为索引

inplace:bool default False

将结果返回为原变量

df#原df

    height    weight    name
0    178        156        小王
1    171        90        小明
2    185        140        小绿
3    196        142        小红

df.set_index(df['name'],append = True，inplace = True)
            height    weight    name
    name            
0    小王    178        156        小王
1    小明    171        90        小明
2    小绿    185        140        小绿
3    小红    196        142        小红

df#无需对df重新赋值，df即为上边代码的结果
            height    weight    name
    name            
0    小王    178        156        小王
1    小明    171        90        小明
2    小绿    185        140        小绿
3    小红    196        142        小红

verify_integrity：bool default False

检查索引是否重复。默认是False。

到此这篇关于pandas学习之df.set_index的具体使用的文章就介绍到这了,更多相关pandas df.set_index内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

pandas 强制类型转换 df.astype实例

废话不多说,大家还是直接看代码吧! import pandas as pd from matplotlib import pyplot as plt from datetime import datetime filename='sitka_weather_2014.csv' df=pd.read_csv(filename) print(df.dtypes) df[' Min Humidity']=df[' Min Humidity'].astype('float64') df=df.astyp
Pandas中df.loc[]与df.iloc[]的用法与异同

目录官网资料: 用途: 输入参数注意: loc与iloc 实际用例: 官网资料: loc :https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.htmliloc : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html 用途: 取数: 从dataframe中取一
Pandas索引排序 df.sort_index()的实现

df.sort_index()实现按索引排序,默认以从小到大的升序方式排列,如希望按降序排列,传入ascending = False import pandas as pd df = pd.DataFrame([['liver','E',89,21,24,64], ['Arry','C',36,37,37,57], ['Ack','A',57,60,18,84], ['Eorge','C',93,96,71,78], ['Oah','D',65,49,61,86] ], columns = ['
pandas数据选取：df[] df.loc[] df.iloc[] df.ix[] df.at[] df.iat[]

1 引言 Pandas是作为Python数据分析著名的工具包,提供了多种数据选取的方法,方便实用.本文主要介绍Pandas的几种数据选取的方法. Pandas中,数据主要保存为Dataframe和Series是数据结构,这两种数据结构数据选取的方式基本一致,本文主要以Dataframe为例进行介绍. 在Dataframe中选取数据大抵包括3中情况: 1)行(列)选取(单维度选取):df[].这种情况一次只能选取行或者列,即一次选取中,只能为行或者列设置筛选条件(只能为一个维度设置筛选条件). 2
pandas || df.dropna() 缺失值删除操作

df.dropna()函数用于删除dataframe数据中的缺失数据,即删除NaN数据. 官方函数说明: DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False) Remove missing values. See the User Guide for more on which values are considered missing, and how to work with missing
Pandas缺失值删除df.dropna()的使用

函数参数函数形式:dropna(axis=0, how=‘any’, thresh=None, subset=None, inplace=False) 参数: axis:0或’index’,表示按行删除:1或’columns’,表示按列删除. how:‘any’,表示该行/列只要有一个以上的空值,就删除该行/列:‘all’,表示该行/列全部都为空值,就删除该行/列. thresh:int型,默认为None.如果该行/列中,非空元素数量小于这个值,就删除该行/列. subset:子集.列表,按c
Pandas数据类型转换df.astype()及数据类型查看df.dtypes的使用

目录 1.数据框字段类型查看:df.dtypes 2.维度查看df.shape: 3.数据框的策略基本信息df.info(): 4.某一列格式df['列名'].dtype: 5.数据类型转换.astype: Pandas所支持的数据类型: Python,numpy都有自己的一套数据格式,它们之间的对应关系可参考如下表格: pandas默认的数据类型是int64,float64. 1.数据框字段类型查看:df.dtypes 数据框td_link_data如下 print(td_link_data)
Pandas数据形状df.shape的实现

pandas: shape()获取Dataframe的行数和列数返回列数: df.shape[1] 返回行数: df.shape[0] 或者:len(df) 返回形状,即几行几列的数组 dataframe.shape() 执行df.shape会返回一个元组,该元组的第一个元素代表行数,第二个元素代表列数,这就是这个数据的基本形状,也是数据的大小 import pandas as pd df = pd.DataFrame([['liver','E',89,21,24,64], ['Arry','
pandas学习之df.set_index的具体使用

目录构建实例 key:label array-like or list of label/arrays drop:bool,default True append:bool default False inplace:bool default False verify_integrity:bool default False 处理数据时,经常需要对索引进行处理,那么可以通过set_index和reset_index来进行处理官方文档 DataFrame.set_index(self, key
pandas学习之df.fillna的具体使用

目录构建实例: value:scalar,series,dict,dataframe method:{backfill,bfill,pad,ffill,none},default none df.fillna主要用来对缺失值进行填充,可以选择填充具体的数字,或者选择临近填充. 官方文档 DataFrame.fillna(self, value=None, method=None, axis=None, inplace=False, limit=None, downcast=None) 解释构
Python Pandas学习之Pandas数据结构详解

目录 1Pandas介绍 2Pandas数据结构 2.1Series 2.2DataFrame 1 Pandas介绍 2008年WesMcKinney开发出的库专门用于数据挖掘的开源python库以Numpy为基础,借力Numpy模块在计算方面性能高的优势基于matplotlib,能够简便的画图独特的数据结构 Numpy已经能够帮助我们处理数据,能够结合matplotlib解决部分数据展示等问题,那么pandas学习的目的在什么地方呢? 增强图表可读性便捷的数据处理能力读取文件方便
pandas学习之txt与sql文件的基本操作指南

目录前言 1.导入txt文件 2.导入sql文件 2.1 安装依赖库pymysql 3.小结总结前言 Pandas是python的一个数据分析包,是基于NumPy的一种工具提供了大量数据结构和函数,可以很方便的处理结构化数据,常见数据结构有: Series:一维数组,与Numpy中的一维array类似. DataFrame:二维的表格型数据结构,可以将DataFrame理解为Series的容器 Time- Series:以时间为索引的Series Panel :三维的数组,可以理解为Dat
Python Pandas学习之基本数据操作详解

目录 1索引操作 1.1直接使用行列索引(先列后行) 1.2结合loc或者iloc使用索引 1.3使用ix组合索引 2赋值操作 3排序 3.1DataFrame排序 3.2Series排序为了更好的理解这些基本操作,下面会通过读取一个股票数据,来进行Pandas基本数据操作的语法介绍. # 读取文件(读取保存文件后面会专门进行讲解,这里先直接调用下api) data = pd.read_csv("./data/stock_day.csv") # 读取当前目录下一个csv文件 # 删
python数学建模是加深Numpy和Pandas学习

目录前言 Numpy 学习 1-numpy.array 2-numpy.empty 3-numpy.zeros 4-numpy.ones NumPy 从已有的数组创建数组 1-numpy.asarray 2-numpy.frombuffer 3-numpy.fromiter NumPy 从数值范围创建数组 1-numpy.arange 2-numpy.linspace 3-numpy.logspace 综合运用[array.arange.linspace.lonspace]: 综合运用[one
python数学建模之Numpy 应用介绍与Pandas学习

目录 Numpy学习 1 Numpy 介绍与应用 1-1Numpy是什么 2 NumPy Ndarray 对象 3 Numpy 数据类型 4 Numpy 数组属性 Pandas学习 1 pandas新增数据列 2 Pandas数据统计函数 3 Pandas对缺失值的处理总结 Numpy学习 1 Numpy 介绍与应用 1-1Numpy是什么 NumPy 是一个运行速度非常快的数学库,一个开源的的python科学计算库,主要用于数组.矩阵计算,包含: 一个强大的N维数组对象 ndarray广播功
用scikit-learn和pandas学习线性回归的方法

对于想深入了解线性回归的童鞋,这里给出一个完整的例子,详细学完这个例子,对用scikit-learn来运行线性回归,评估模型不会有什么问题了. 1. 获取数据,定义问题没有数据,当然没法研究机器学习啦.:) 这里我们用UCI大学公开的机器学习数据来跑线性回归. 数据的介绍在这:http://archive.ics.uci.edu/ml/datasets/Combined+Cycle+Power+Plant 数据的下载地址在这:http://archive.ics.uci.edu/ml/mach
Python Pandas学习之数据离散化与合并详解

目录 1数据离散化 1.1为什么要离散化 1.2什么是数据的离散化 1.3举例股票的涨跌幅离散化 2数据合并 2.1pd.concat实现数据合并 2.2pd.merge 1 数据离散化 1.1 为什么要离散化连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数.离散化方法经常作为数据挖掘的工具. 1.2 什么是数据的离散化连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数值代表落在每个子区间中的属性值. 离散化有