pandas中按行或列的值对数据排序的实现

目录
  • 一、 按列的值对数据排序
    • 1.按某一列的值对数据排序
    • 2. 按多列的值对数据排序
    • 3. key 参数:设置排序时的数据变换函数
    • 4. 修改原数据
  • 二、 按行的值对数据排序
  • 参考

在处理表格型数据时,常会用到排序,比如,按某一行或列的值对表格排序,要怎么做呢?

这就要用到 pandas 中的 sort_values() 函数。

一、 按列的值对数据排序

先来看最常见的情况。

1.按某一列的值对数据排序

以下面的数据为例。

import pandas as pd
df_col = pd.DataFrame({'Name':['Paul','Richard', 'Betty',  'Philip','Anna'],
        'course1':[85,83,90,84,85],
        'course2':[90,82,79,71,86],
        'sport':['basketball', 'Volleyball', 'football', 'Basketball','baseball']},
         index=[1,2,3,4,5])
df_col
Name course1 course2 sport
1 Paul 85 90 basketball
2 Richard 83 82 Volleyball
3 Betty 90 79 football
4 Philip 84 71 Basketball
5 Anna 85 86 baseball

在 sort_values() 函数中设置 by='列名',即可以按这一列值的顺序重新排列行。

df_sort=df_col.sort_values(by='course2')
df_sort
Name course1 course2 sport
4 Philip 84 71 Basketball
3 Betty 90 79 football
2 Richard 83 82 Volleyball
5 Anna 85 86 baseball
1 Paul 85 90 basketball

如以上结果所示,默认是升序排列。还可以做降序排列,在 sort_values() 函数中设置 ascending=False 即可。例如:

df_sort=df_col.sort_values(by='course2',ascending=False)
df_sort
Name course1 course2 sport
1 Paul 85 90 basketball
5 Anna 85 86 baseball
2 Richard 83 82 Volleyball
3 Betty 90 79 football
4 Philip 84 71 Basketball

2. 按多列的值对数据排序

您是否遇到过这种情况:要排序的某一列数据有相同的值,此时结果会怎么样呢?我们来看下面的例子。

df_sort=df_col.sort_values(by='course1')
df_sort
Name course1 course2 sport
2 Richard 83 82 Volleyball
4 Philip 84 71 Basketball
1 Paul 85 90 basketball
5 Anna 85 86 baseball
3 Betty 90 79 football

从结果看到,“course1” 有两个相同的值 85,此时会依据 index 的先后顺序排列。

那如果不想按 index 顺序,想要自己设定相同值的排序方式,应该怎么做呢?

可以设置第二列,对于第一列的相同值,参照第二列的值排序。例如:

df_sort=df_col.sort_values(by=['course1','course2'])
df_sort
Name course1 course2 sport
2 Richard 83 82 Volleyball
4 Philip 84 71 Basketball
5 Anna 85 86 baseball
1 Paul 85 90 basketball
3 Betty 90 79 football

可以看到,by 参数中的第二列 “course2” 只在第一列 “course1” 中有相同值时起作用,因此只有 “Anna” 和 “Paul” 所在的这两行数据位置互换,其它行位置不变。

3. key 参数:设置排序时的数据变换函数

在实际中还可能会遇到这种情况,数据中大小写都有,比如例子数据的 “sport” 列。按这一列对数据排序,结果如下:

df_sort=df_col.sort_values(by=['sport'])
df_sort
Name course1 course2 sport
4 Philip 84 71 Basketball
2 Richard 83 82 Volleyball
5 Anna 85 86 baseball
1 Paul 85 90 basketball
3 Betty 90 79 football

看结果发现,大写字母排在小写字母前面,因此 “Volleyball” 所在行排在 “baseball” 所在行前面,但这并不是我们想要的排序结果。那应该怎么做,才能按字母顺序排序呢?

可以设置 sort_values() 函数的 key 参数。

df_sort=df_col.sort_values(by=['sport'],key=lambda col:col.str.lower())
df_sort
Name course1 course2 sport
5 Anna 85 86 baseball
1 Paul 85 90 basketball
4 Philip 84 71 Basketball
3 Betty 90 79 football
2 Richard 83 82 Volleyball

此时的排序结果就是按字母顺序排列。

4. 修改原数据

前面介绍的操作中,每次都生成了一个新的数据 df_sort,并没有改变原数据。

df_col
Name course1 course2 sport
1 Paul 85 90 basketball
2 Richard 83 82 Volleyball
3 Betty 90 79 football
4 Philip 84 71 Basketball
5 Anna 85 86 baseball

但是,有时可能数据太大,而原数据后续不再使用。为了节省空间,想直接在原数据上改动。应该怎么办呢?

只要在 sort_values() 函数中设置 inplace=True。

df_col.sort_values(by='course2',inplace=True)
df_col
Name course1 course2 sport
4 Philip 84 71 Basketball
3 Betty 90 79 football
2 Richard 83 82 Volleyball
5 Anna 85 86 baseball
1 Paul 85 90 basketball

二、 按行的值对数据排序

需要注意的是,这种情况只适用于各列数据类型相同的情况,例如下面例子中的数据,每一列数据都是数值型。而前面例子的数据既有数值型,又有字符型,无法按行的值排序。

df_row = pd.DataFrame({
        'course1':[91,85,90,84,92],
        'course2':[72,81,76,71,79],
        'course3':[93,85,88,94,86]},
         index=['Paul','Richard', 'Betty',  'Philip','Anna'])
df_row
course1 course2 course3
Paul 91 72 93
Richard 85 81 85
Betty 90 76 88
Philip 84 71 94
Anna 92 79 86

按行的值排序时,设置 by 参数为某行的 index 名,并且 axis=1。

df_sort=df_row.sort_values(by='Anna',axis=1)
df_sort
course2 course3 course1
Paul 72 93 91
Richard 81 85 85
Betty 76 88 90
Philip 71 94 84
Anna 79 86 92

按行值排序在 sort_values() 函数中设置 ascending, key, inplace 等参数的方式都与前面介绍的按列值排序相同。这里仅以按多行的值对数据排序为例。

df_sort=df_row.sort_values(by=['Richard','Paul'],axis=1,ascending=False)
df_sort
course3 course1 course2
Paul 93 91 72
Richard 85 85 81
Betty 88 90 76
Philip 94 84 71
Anna 86 92 79

参考

1.https://www.geeksforgeeks.org/sort-rows-or-columns-in-pandas-dataframe-based-on-values/#courses

2.https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html

到此这篇关于pandas中按行或列的值对数据排序的实现的文章就介绍到这了,更多相关pandas 按行或列的值对数据排序内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Pandas中MultiIndex选择并提取任何行和列

    目录 选择并提取带有loc的任何行或列 特殊切片规范:slice(),pd.IndexSlice [] xs方法 给选择赋值 使用多索引(分层索引)可以方便地对pandas.DataFrame和pandas.Series的索引进行分层配置,以便可以为每个层次结构计算统计信息,例如总数和平均值. 以下csv数据为例.每个索引列都命名为level_x. import pandas as pd df = pd.read_csv('./data/25/sample_multi.csv', index_c

  • pandas读取Excel批量转换时间戳的实践

    目录 一.安装 二. 代码如下 python将GPS时间戳批量转换为日期时间(年月日时分秒) 一.安装 pip install pandas 如果出报错,不能运行,可以安装 pip install xlrd 二. 代码如下 import pandas as pd import time,datetime file_path = r'C:\Users\Administrator\Desktop\携号转网测试\admin_log.xls' df = pd.read_excel(file_path,

  • 针对Pandas的总结以及数据读取_pd.read_csv()的使用详解

    目录 1. FilePathOrBuffer 2. sep 3. delim_whitespace(不常用) 4. header 和 names 5. index_col 6. usecols 7. mangle_dupe_cols 8. prefix 9. dtype 10. engine 11. converters 12. true_values和false_value 13. skiprows 14. skipfooter 15. nrows 16. na_values 17. keep

  • Pandas merge合并两个DataFram的实现

    目录 Pandas merge 保留左边的DataFram Pandas merge pandas.merge()是pandas库中用于合并两个或多个DataFrame对象的函数,其常用的参数有以下几个: left:要合并的左侧DataFrame. right:要合并的右侧DataFrame. how:指定合并方式,包括‘left’.‘right’.‘outer’和‘inner’四种. on:指定按照哪些列进行合并,可以是单个列名或包含多个列名的列表. left_on和right_on:指定左侧

  • Pandas通过index选择并获取行和列

    目录 获取pandas.DataFrame的列 列名称:将单个列作为pandas.Series获得 列名称的列表:将单个或多个列作为pandas.DataFrame获得 获取pandas.DataFrame的行 行名・行号的切片:将单行或多行作为pandas.DataFrame获得 获取pandas.Series的值 标签名称:获取每种类型的单个元素的值 标签名称/数字切片:将单个元素或多个元素的值作为pandas.Series获得 获取pandas.DataFrame元素的值 行名/列名是整数

  • pandas.DataFrame中提取特定类型dtype的列

    目录 select_dtypes()的基本用法 指定要提取的类型:参数include 指定要排除的类型:参数exclude pandas.DataFrame为每一列保存一个数据类型dtype. 要仅提取(选择)特定数据类型为dtype的列,请使用pandas.DataFrame的select_dtypes()方法. 以带有各种数据类型的列的pandas.DataFrame为例. import pandas as pd df = pd.DataFrame({'a': [1, 2, 1, 3],  

  • Pandas.DataFrame时间序列数据处理的实现

    目录 如何将一列现有数据指定为DatetimeIndex 读取CSV时如何指定DatetimeIndex 关于pandas.Series 将pandas.DataFrame,pandas.Series的索引设置为datetime64 [ns]类型时,将其视为DatetimeIndex,并且可以使用各种处理时间序列数据的函数. 可以按年或月指定行,并按切片指定提取周期,这在处理包含日期和时间信息(例如日期和时间)的数据时非常方便. 在此,将对以下内容进行描述. 如何将一列现有数据指定为Dateti

  • pandas中按行或列的值对数据排序的实现

    目录 一. 按列的值对数据排序 1.按某一列的值对数据排序 2. 按多列的值对数据排序 3. key 参数:设置排序时的数据变换函数 4. 修改原数据 二. 按行的值对数据排序 参考 在处理表格型数据时,常会用到排序,比如,按某一行或列的值对表格排序,要怎么做呢? 这就要用到 pandas 中的 sort_values() 函数. 一. 按列的值对数据排序 先来看最常见的情况. 1.按某一列的值对数据排序 以下面的数据为例. import pandas as pd df_col = pd.Dat

  • Pandas中根据条件替换列中的值的四种方式

    目录 方法1:使用dataframe.loc[]函数 方法2:使用NumPy.where()函数 方法3:使用pandas掩码函数 方法4:替换包含指定字符的字符串 方法1:使用dataframe.loc[]函数 通过这个方法,我们可以用一个条件或一个布尔数组来访问一组行或列.如果我们可以访问它,我们也可以操作它的值,是的!这是我们的第一个方法,通过pandas中的dataframe.loc[]函数,我们可以访问一个列并通过一个条件改变它的值. 语法:df.loc[ df["column_nam

  • python中pandas.DataFrame对行与列求和及添加新行与列示例

    本文介绍的是python中pandas.DataFrame对行与列求和及添加新行与列的相关资料,下面话不多说,来看看详细的介绍吧. 方法如下: 导入模块: from pandas import DataFrame import pandas as pd import numpy as np 生成DataFrame数据 df = DataFrame(np.random.randn(4, 5), columns=['A', 'B', 'C', 'D', 'E']) DataFrame数据预览: A

  • python pandas库读取excel/csv中指定行或列数据

    目录 引言 1.根据index查询 2.已知数据在第几行找到想要的数据 3.根据条件查询找到指定行数据 4.找出指定列 5.找出指定的行和指定的列 6.在规定范围内找出符合条件的数据 总结 引言 关键!!!!使用loc函数来查找. 话不多说,直接演示: 有以下名为try.xlsx表: 1.根据index查询 条件:首先导入的数据必须的有index 或者自己添加吧,方法简单,读取excel文件时直接加index_col 代码示例: import pandas as pd #导入pandas库 ex

  • pandas中提取DataFrame某些列的一些方法

    目录 前言 方法一:df[columns] 方法二:df.loc[]:用 label (行名或列名)做索引. 方法三:df.iloc[]: i 表示 integer,用 integer location(行或列的整数位置,从0开始)做索引. 补充:提取所有列名中包含“线索”.“浏览”字段的列 参考: 总结 前言 在处理表格型数据时,一行数据是一个 sample,列就是待提取的特征.怎么选取其中的一些列呢?本文分享一些方法. 使用如下的数据作为例子: import pandas as pd dat

  • python3读取excel文件只提取某些行某些列的值方法

    今天有一位同学给了我一个excel文件,要求读取某些行,某些列,然后我试着做了一个demo,这里分享出来,希望能帮到大家: 首先安装xlrd: pip3 install xlrd 然后上代码: import numpy as np import xlrd data = xlrd.open_workbook('LifeTable_16.xlsx') table = data.sheets()[0] # print(table) # nrows = table.nrows #行数 # ncols =

  • 如何实现删除numpy.array中的行或列

    话不多说,直接上代码吧! import numpy as np A = np.delete(A, 1, 0) # 删除A的第二行 B = np.delete(B, 2, 0) # 删除B的第三行 C = np.delete(C, 1, 1) # 删除C的第三列 参考引用: https://stackoverflow.com/questions/1642730/how-to-delete-columns-in-numpy-array 以上这篇如何实现删除numpy.array中的行或列就是小编分享

  • numpy.ndarray 实现对特定行或列取值

    如下所示: import numpy as np b = [[1,2,0], [4,5,0], [7,8,1], [4,0,1], [7,11,1] ] a=np.array([b]).reshape((5,3)) print(a) c=[1,3,4] # print(a[c]) d=np.nonzero(a[:, 2] == 0) print(d) print(a[d]) 以上这篇numpy.ndarray 实现对特定行或列取值就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多

  • asp.net如何得到GRIDVIEW中某行某列值的方法

    根据某列的值改变其样式最好的方法是在GridView的DataRowBound事件中想办法.在GridView中的行绑定数据后将立即执行DataRowBound事件.DataRowBound事件使用GridViewRowEventargs类作为事件变量.通过事件变量你能够利用GridViewRowEventArgs属性操作已经绑定数据的行. 复制代码 代码如下: protected void GridView1_RowDataBound(object sender, GridViewRowEve

  • 删除pandas中产生Unnamed:0列的操作

    我们在数据处理,往往不小心,pandas会"主动"加上行和列的名称,我现在就遇到了这个问题. 这个是pandas中to_csv生成的数据各种拼接之后的最终数据(默认参数,index=True,column=True) Unnamed: 0 ip Unnamed: 0.1 ... 766 767 class 0 0 google.com 0 ... 0.376452 0.148091 0 1 1 facebook.com 1 ... -0.044634 -0.180167 0 2 2 y

随机推荐