pandas 实现将两列中的较大值组成新的一列

最近一个开发需求中要求用pandas实现该需求:

逐行对比两列,选出每行两列中较大的值加到第三列

翻了下好像没有类似的函数,所以没办法要自己造轮子,直接上代码和注释

# 需要对比的值为value_x和value_y
# 新家的列名为value_final
# 1.设置一个flag,值为value_y-value_x,为正代表y较大,负代表x较大
df_test['value_flag'] = df_test['Value_y'] - df_test['Value_x']
# 2.分别取得y较大的部分和x较大的部分
df_test_bigger = df_test[df_test['value_flag'] >= 0].copy()
df_test_litter = df_test[df_test['value_flag'] < 0].copy()
# 3.分别对final进行赋值
df_test_bigger['Value_Final'] = df_test_bigger['Value_y']
df_test_litter['Value_Final'] = df_test_litter['Value_x']
# 4.使用concat函数将其聚合
df_test_1 = pd.concat([df_test_bigger, df_test_litter])

补充:pandas技巧--两列相加形成新一列(eval)

如下:

data.eval('新字段=字段1+字段2',inplace=True)
data.eval("""新字段1=字段1+字段2
  新字段2=字段1+字段2
  新字段3=字段1+字段2""",inplace=True)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持我们。如有错误或未考虑完全的地方,望不吝赐教。

(0)

相关推荐

  • Pandas groupby apply agg 的区别 运行自定义函数说明

    agg 方法将一个函数使用在一个数列上,然后返回一个标量的值.也就是说agg每次传入的是一列数据,对其聚合后返回标量. 对一列使用三个函数: 对不同列使用不同函数 apply 是一个更一般化的方法:将一个数据分拆-应用-汇总.而apply会将当前分组后的数据一起传入,可以返回多维数据. 实例: 1.数据如下: lawsuit2[['EID','LAWAMOUNT','LAWDATE']] 2.groupby后应用apply传入函数数据如下: lawsuit2[['EID','LAWAMOUNT'

  • pandas分组排序 如何获取第二大的数据

    Python用来做数据分析很方便,网上很多关于找数据中第二大的方法,但是大多数都是关于SQL的,于是我挑战一下用Python来做这件事(主要是SQL写的不好>_<),上代码. 1.数据我是自己编的 在实际工作中应该从数据库中导入数据,如何从数据库导出数据,我之后会补充. import pandas as pd df = pd.DataFrame([ {"class": 1, "name": "aa", "english&qu

  • 使用pandas忽略行列索引,纵向拼接多个dataframe

    从wind上面搞到一批股票数据后发现:本来是一个类型的数据,但是由于季度不同,列名也不同,导致使用pandas合并多个报表的时候总是出现一大堆NaN,所以这里我写了一个函数,专门针对这样的表 它的思路是: 生成一堆单词,然后把这些表的列索引全部替换为这些单词,然后调用 pd.concat() 把这些dataframe全部合并后再把列索引改回来,当然,这里也可以手动指定列索引. 使用方法见代码的最后一行,传入一个dataframe的list就可以了. import pandas as pd fro

  • pandas DataFrame实现几列数据合并成为新的一列方法

    问题描述 我有一个用于模型训练的DataFrame如下图所示: 其中的country.province.city.county四列其实是位置信息的不同层级,应该合成一列用于模型训练 方法: parent_teacher_data['address'] = parent_teacher_data['country']+parent_teacher_data['province']+parent_teacher_data['city']+parent_teacher_data['county'] 就

  • pandas group分组与agg聚合的实例

    如下: import pandas as pd df = pd.DataFrame({'Country':['China','China', 'India', 'India', 'America', 'Japan', 'China', 'India'], 'Income':[10000, 10000, 5000, 5002, 40000, 50000, 8000, 5000], 'Age':[5000, 4321, 1234, 4010, 250, 250, 4500, 4321]}) 构造的数

  • pandas groupby分组对象的组内排序解决方案

    问题: 根据数据某列进行分组,选择其中另一列大小top-K的的所在行数据 解析: 求解思路很清晰,即先用groupby对数据进行分组,然后再根据分组后的某一列进行排序,选择排序结果后的top-K结果 案例: 取一下dataframe中B列各对象中C值最高所在的行 df = pd.DataFrame({"A": [2, 3, 5, 4], "B": ['a', 'b', 'b', 'a'], "C": [200801, 200902, 200704

  • pandas组内排序,并在每个分组内按序打上序号的操作

    问题: pandas组内排序,并在每个分组内按序打上序号 描述: pandas dataframe 对dep_id组内的salary排序.希望给下面原本只有前三列的dataframe,添加上第四列. 等价于sql里的排序函数 row_number() over() 功能 假设我已经建好了仅有前三列的dataframe,数据集命名为 MyData, 解决方案如下: MyData['sort_id'] = MyData['salary'].groupby(MyData['dep_id']).rank

  • pandas 实现将两列中的较大值组成新的一列

    最近一个开发需求中要求用pandas实现该需求: 逐行对比两列,选出每行两列中较大的值加到第三列 翻了下好像没有类似的函数,所以没办法要自己造轮子,直接上代码和注释 # 需要对比的值为value_x和value_y # 新家的列名为value_final # 1.设置一个flag,值为value_y-value_x,为正代表y较大,负代表x较大 df_test['value_flag'] = df_test['Value_y'] - df_test['Value_x'] # 2.分别取得y较大的

  • sqlserver中在指定数据库的所有表的所有列中搜索给定的值

    比如:我们导入了某个客户的资料,我们知道此客户的姓名是ZhangShan,我们想知道,在我们的业务数据库(eg:NorthWind)中,有哪些数据表的哪些字段设置了此姓名值ZhangShan,通过下面的SQL,我们就可以实现此目的,此处的SQL搜索自网上,在此处做了局部修改. 一.搜索数据是String类型 适用于搜索Text,NText,Varchar,Nvarchar,Char,NChar等类型 1.创建存储过程:My_Search_StringInGivenTable 复制代码 代码如下:

  • python pandas库读取excel/csv中指定行或列数据

    目录 引言 1.根据index查询 2.已知数据在第几行找到想要的数据 3.根据条件查询找到指定行数据 4.找出指定列 5.找出指定的行和指定的列 6.在规定范围内找出符合条件的数据 总结 引言 关键!!!!使用loc函数来查找. 话不多说,直接演示: 有以下名为try.xlsx表: 1.根据index查询 条件:首先导入的数据必须的有index 或者自己添加吧,方法简单,读取excel文件时直接加index_col 代码示例: import pandas as pd #导入pandas库 ex

  • python中pandas.DataFrame对行与列求和及添加新行与列示例

    本文介绍的是python中pandas.DataFrame对行与列求和及添加新行与列的相关资料,下面话不多说,来看看详细的介绍吧. 方法如下: 导入模块: from pandas import DataFrame import pandas as pd import numpy as np 生成DataFrame数据 df = DataFrame(np.random.randn(4, 5), columns=['A', 'B', 'C', 'D', 'E']) DataFrame数据预览: A

  • pandas把dataframe转成Series,改变列中值的类型方法

    使用 pd.Series把dataframe转成Series ts = pd.Series(df['Value'].values, index=df['Date']) 使用astype改变列中的值的类型,注意前面要有np df['列名'] = df['列名'].astype(np.int64) 以上这篇pandas把dataframe转成Series,改变列中值的类型方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们. 您可能感兴趣的文章: python panda

  • Pandas中根据条件替换列中的值的四种方式

    目录 方法1:使用dataframe.loc[]函数 方法2:使用NumPy.where()函数 方法3:使用pandas掩码函数 方法4:替换包含指定字符的字符串 方法1:使用dataframe.loc[]函数 通过这个方法,我们可以用一个条件或一个布尔数组来访问一组行或列.如果我们可以访问它,我们也可以操作它的值,是的!这是我们的第一个方法,通过pandas中的dataframe.loc[]函数,我们可以访问一个列并通过一个条件改变它的值. 语法:df.loc[ df["column_nam

  • Pandas merge合并两个DataFram的实现

    目录 Pandas merge 保留左边的DataFram Pandas merge pandas.merge()是pandas库中用于合并两个或多个DataFrame对象的函数,其常用的参数有以下几个: left:要合并的左侧DataFrame. right:要合并的右侧DataFrame. how:指定合并方式,包括‘left’.‘right’.‘outer’和‘inner’四种. on:指定按照哪些列进行合并,可以是单个列名或包含多个列名的列表. left_on和right_on:指定左侧

  • Bootstrap Table 在指定列中添加下拉框控件并获取所选值

    背景 最近在使用Bootstrap table ,有一个在某一列添加一个下拉列表,并且通过 "getAllSelections"方法获取所选行的需求,在实现这个功能的时,走了一些弯路,遇到了一些坑.所以今天总结出来,既是自己的学习,也分享给大家,希望能够有些帮助. 如何解决 添加这个下拉列表有以下两种方法: 利用Column options 中的 formatter 将数据转换成下拉列表的形式 使用bootstrap-table拓展中的editable插件 这次主要介绍第一种,基本的思

  • 用Python的pandas框架操作Excel文件中的数据教程

    引言 本文的目的,是向您展示如何使用pandas来执行一些常见的Excel任务.有些例子比较琐碎,但我觉得展示这些简单的东西与那些你可以在其他地方找到的复杂功能同等重要.作为额外的福利,我将会进行一些模糊字符串匹配,以此来展示一些小花样,以及展示pandas是如何利用完整的Python模块系统去做一些在Python中是简单,但在Excel中却很复杂的事情的. 有道理吧?让我们开始吧. 为某行添加求和项 我要介绍的第一项任务是把某几列相加然后添加一个总和栏. 首先我们将excel 数据 导入到pa

  • 使用SqlBulkCopy时应注意Sqlserver表中使用缺省值的列

    SqlBulkCopy 来自数据源的 String 类型的给定值不能转换为指定目标列的类型 nvarchar. 在网上找了下,大都说是因为数据库中的字段过小( 来自数据源的 String 类型的给定值不能转换为指定目标列的类型 nvarchar. ),造成截断的错误导致,仔细检查后发现我的表设计中没有字段过小的情况,也不是单引号的问题. 后经仔细调试发现,由于使用SqlBulkCopy导入时我的文本文件与库中的表列不对应造成的.我的文本文件中有字段18个,而我的表中只使用了9个字段,且有两个是文

随机推荐