浅谈dataframe两列相乘构造新特征

假如我们要构建新特征b

目的是从a中筛选出数值在4~6之间的数据,如果符合就是True,否则就是False。

那么代码如下

import pandas as pd
lists=pd.DataFrame({'a':[1,2,3,4,5,6,7,8,9]})
lists['b']=(lists['a']<6).mul(lists['a']>4)

补充:dataframe求两列的相乘,再将输出为新的一列

看代码吧~

df["new"]=df3["rate"]*df3["duration"]

new为新的一列的列名

rate和duration为需要相乘的列

加,减,乘,除都适用!

补充:DataFrame衍生新特征操作

1.DataFrame中某一列的值衍生为新的特征

#将LBL1特征的值衍生为one-hot形式的新特征
piao=df_train_log.LBL1.value_counts().index
#先构造一个临时的df
df_tmp=pd.DataFrame({'USRID':df_train_log.drop_duplicates('USRID').USRID.values})
#将所有的新特征列都置为0
for i in piao:
    df_tmp['PIAO_'+i]=0
#进行分组便利,有这个特征就置为1,原数据每个USRID有多条记录,所以分组统计
group=df_train_log.groupby(['USRID'])
for k in group.groups.keys():
    t = group.get_group(k)
    id=t.USRID.value_counts().index[0]
    tmp_list=t.LBL1.value_counts().index
    for j in tmp_list:
        df_tmp['PIAO_'+j].loc[df_tmp.USRID==id]=1

2.分组统计,选出同一USRID下该变量中出现次数最多的值项

group=df_train_log.groupby(['USRID'])
lt=[]
list_max_lbl1=[]
list_max_lbl2=[]
list_max_lbl3=[]
for k in group.groups.keys():
    t = group.get_group(k)
    #通过value_counts找出出现次数最多的项
    argmx = np.argmax(t['EVT_LBL'].value_counts())
    lbl1_max=np.argmax(t['LBL1'].value_counts())
    lbl2_max=np.argmax(t['LBL2'].value_counts())
    lbl3_max=np.argmax(t['LBL3'].value_counts())
    list_max_lbl1.append(lbl1_max)
    list_max_lbl2.append(lbl2_max)
    list_max_lbl3.append(lbl3_max)
    #只留下出现次数最多的项
    c = t[t['EVT_LBL']==argmx].drop_duplicates('EVT_LBL')
    #放入list中
    lt.append(c)
#构造一个新的df
df_train_log_new = pd.concat(lt)
#另外又构造了三个特征,LBL1-LBL3分别出现次数最多的项
df_train_log_new['LBL1_MAX']=list_max_lbl1
df_train_log_new['LBL2_MAX']=list_max_lbl2
df_train_log_new['LBL3_MAX']=list_max_lbl3

3.衍生出某天是否发生的ont-hot新特征

#创造临时df,星期三,星期六,星期七,都默认置为0
df_day=pd.DataFrame({'USRID':df_train_log.drop_duplicates('USRID').USRID.values})
df_day['weekday_3']=0
df_day['weekday_6']=0
df_day['weekday_7']=0
#分组统计,有就置为1,没有置为0
group=df_train_log.groupby(['USRID'])
for k in group.groups.keys():
    t = group.get_group(k)
    id=t.USRID.value_counts().index[0]
    tmp_list=t.occ_dayofweek.value_counts().index
    for j in tmp_list:
        if j==3:
            df_day['weekday_3'].loc[df_tmp.USRID==id]=1
        elif j==6:
            df_day['weekday_6'].loc[df_tmp.USRID==id]=1
        elif j==7:
            df_day['weekday_7'].loc[df_tmp.USRID==id]=1

4.查看用户一共停留在APP上多少秒,共有几天看了APP

#首先将日期转化为时间戳,并赋予一个新特征
tmp_list=[]
for i in df_train_log.OCC_TIM:
    d=datetime.datetime.strptime(str(i),"%Y-%m-%d %H:%M:%S")
    evt_time = time.mktime(d.timetuple())
    tmp_list.append(evt_time)
df_train_log['time']=tmp_list
#每下一行减去上一行,得到app停留时间
df_train_log['diff_time']=df_train_log.time-df_train_log.time.shift(1)
#构造一个新的dataFrame,分组得到查看app的天数
df_time=pd.DataFrame({'USRID':df_train_log.drop_duplicates('USRID').USRID.values})
#有几天查看
df_time['days']=0
group=df_train_log.groupby(['USRID'])
for k in group.groups.keys():
    t = group.get_group(k)
    id=set(t.USRID).pop()
    df_time['days'].loc[df_time.USRID==id]= len(t.occ_day.value_counts().index)
#去掉一些异常时间戳,比如间隔两天的相减,肯定不合适,na的也去掉了
df_train_log=df_train_log[(df_train_log.diff_time>0)&(df_train_log.diff_time<8000)]
#累计停留时间
group_stayTime=df_train_log['diff_time'].groupby(df_train_log['USRID']).sum()
#创造新的df
df_tmp=pd.DataFrame({'USRID':list(group_stayTime.index.values),'stay_time':list(group_stayTime.values)})
#合并成一个新的df
df=pd.merge(df_time,df_tmp,on=['USRID'],how='left')#合并后,缺失的停留时间,置为0df.fillna(0,axis=1,inplace=True)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持我们。

(0)

相关推荐

  • Pandas:DataFrame对象的基础操作方法

    DataFrame对象的创建,修改,合并 import pandas as pd import numpy as np 创建DataFrame对象 # 创建DataFrame对象 df = pd.DataFrame([1, 2, 3, 4, 5], columns=['cols'], index=['a','b','c','d','e']) print df cols a 1 b 2 c 3 d 4 e 5 df2 = pd.DataFrame([[1, 2, 3],[4, 5, 6]], co

  • python pandas中DataFrame类型数据操作函数的方法

    python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFrame数据及属性 df_obj = DataFrame() #创建DataFrame对象 df_obj.dtypes #查看各行的数据格式 df_obj['列名'].astype(int)#转换某列的数据类型 df_obj.head() #查看前几行的数据,默认前5行 df_obj.tail() #查看后几

  • python dataframe常见操作方法:实现取行、列、切片、统计特征值

    实例如下所示: # -*- coding: utf-8 -*- import numpy as np import pandas as pd from pandas import * from numpy import * data = DataFrame(np.arange(16).reshape(4,4),index = list("ABCD"),columns=list('wxyz')) print data print data[0:2] #取前两行数据 print'+++++

  • Python pandas DataFrame操作的实现代码

    1. 从字典创建Dataframe >>> import pandas as pd >>> dict1 = {'col1':[1,2,5,7],'col2':['a','b','c','d']} >>> df = pd.DataFrame(dict1) >>> df col1 col2 0 1 a 1 2 b 2 5 c 3 7 d 2. 从列表创建Dataframe (先把列表转化为字典,再把字典转化为DataFrame) >

  • 浅谈dataframe两列相乘构造新特征

    假如我们要构建新特征b 目的是从a中筛选出数值在4~6之间的数据,如果符合就是True,否则就是False. 那么代码如下 import pandas as pd lists=pd.DataFrame({'a':[1,2,3,4,5,6,7,8,9]}) lists['b']=(lists['a']<6).mul(lists['a']>4) 补充:dataframe求两列的相乘,再将输出为新的一列 看代码吧~ df["new"]=df3["rate"]*

  • 浅谈dataframe中更改列属性的方法

    在读取文件时将整数变量读成了字符串, 或者需要转换列属性时,通过方法astype Python中 举例: dataframe.numbers=dataframe.numbers.astype(float) province.id=province.id.astype(str) R中 举例: data<-read.csv('data.csv',col.names = c('id','sex','numbers'),stringsAsFactors=FALSE),stringsAsFactors=F

  • 浅谈Android Studio 3.0 工具新特性的使用 Android Profiler 、Device File Explorer

    前言: 其实 studio3.0的工具大家也已经使用过一段时间了,自己呢,就是从bate版开始使用的,我觉得比较好用的几个地方.就几个,可能还没用到其他的精髓. 但我觉的这个两个功能对我是比较实用的.好那么下面就给大家介绍一下吧. 正文: 话不多说咱们直接上图吧.(个人比较喜欢看图说话) 第一个(Android Profiler)我要介绍的就是这个了.(先看一下效果"震撼一下") (图-1) (图-2) (图-3) (厉害不厉害,牛逼不牛逼)那么我们怎么来操作这个工具呢,来咱们接着看图

  • 浅谈javascript:两种注释,声明变量,定义函数

    JavaScript:单行注释用//呵呵呵呵:多行注释用/*hdhdhdh*/ javascript中区别大小写,定义变量使用关键字var,语法如下:var 变量名,其中变量从编程角度讲,变量是用于存储某种/某些数值的存储器. javascript函数调用: 以上就是小编为大家带来的浅谈javascript:两种注释,声明变量,定义函数全部内容了,希望大家多多支持我们~

  • 浅谈DataFrame和SparkSql取值误区

    1.DataFrame返回的不是对象. 2.DataFrame查出来的数据返回的是一个dataframe数据集. 3.DataFrame只有遇见Action的算子才能执行 4.SparkSql查出来的数据返回的是一个dataframe数据集. 原始数据 scala> val parquetDF = sqlContext.read.parquet("hdfs://hadoop14:9000/yuhui/parquet/part-r-00004.gz.parquet") df: or

  • 在dataframe两列日期相减并且得到具体的月数实例

    如下所示: df = pd.DataFrame(np.random.randn(6,4), index=pd.date_range('20130101', periods=6), columns=list('ABCD')) df.A = pd.date_range('20160101', periods=6) print (df) df1 = pd.DataFrame(np.random.randn(6,4), index=pd.date_range('20130101', periods=6)

  • 浅谈Oracle 11g 发行版2 新安装后关于登录的一些基本操作

    Oracle 11g是在推出的最新数据库软件,Oracle 11g有400多项功能,经过了1500万个小时的测试,开发工作量达到了3.6万人/月,相当于1000名员工连续研发3年.Oracle 11g提供了高性能.伸展性.可用性和安全性,并能更方便地在低成本服务器和存储设备组成的网格上运行 ,相对过往版本而言,Oracle 11g具有了与众不同的特性 首先要注意,安装时候可以选择桌面类或者服务器类.桌面类就比较简单,不用什么配置,在安装时候提示你输入的密码,是SYS用户的密码:而服务器类,可以配

  • pandas 实现将两列中的较大值组成新的一列

    最近一个开发需求中要求用pandas实现该需求: 逐行对比两列,选出每行两列中较大的值加到第三列 翻了下好像没有类似的函数,所以没办法要自己造轮子,直接上代码和注释 # 需要对比的值为value_x和value_y # 新家的列名为value_final # 1.设置一个flag,值为value_y-value_x,为正代表y较大,负代表x较大 df_test['value_flag'] = df_test['Value_y'] - df_test['Value_x'] # 2.分别取得y较大的

  • 浅谈pandas中Dataframe的查询方法([], loc, iloc, at, iat, ix)

    pandas为我们提供了多种切片方法,而要是不太了解这些方法,就会经常容易混淆.下面举例对这些切片方法进行说明. 数据介绍 先随机生成一组数据: In [5]: rnd_1 = [random.randrange(1,20) for x in xrange(1000)] ...: rnd_2 = [random.randrange(1,20) for x in xrange(1000)] ...: rnd_3 = [random.randrange(1,20) for x in xrange(1

  • 浅谈C# 9.0 新特性之只读属性和记录

    大家好,这是 C# 9.0 新特性系列的第 4 篇文章. 熟悉函数式编程的童鞋一定对"只读"这个词不陌生.为了保证代码块自身的"纯洁",函数式编程是不能随便"弄脏"外来事物(参数.变量等)的,所以"只读"对函数式编程非常重要. 为了丰富 C# 对函数式编程支持,较新的 C# 版本引入了一些很有用的新特性.比如 C# 8 中就对 struct 类型的方法增加了 readonly 修饰符支持,被 readonly 修饰的方法是不能

随机推荐