pandas 对每一列数据进行标准化的方法
两种方式
>>> import numpy as np >>> import pandas as pd Backend TkAgg is interactive backend. Turning interactive mode on. >>> np.random.seed(1) >>> df_test = pd.DataFrame(np.random.randn(4,4)* 4 + 3) >>> df_test 0 1 2 3 0 9.497381 0.552974 0.887313 -1.291874 1 6.461631 -6.206155 9.979247 -0.044828 2 4.276156 2.002518 8.848432 -5.240563 3 1.710331 1.463783 7.535078 -1.399565 >>> df_test_1 = df_test >>> df_test.apply(lambda x: (x - np.min(x)) / (np.max(x) - np.min(x))) #方法一 0 1 2 3 0 1.000000 0.823413 0.000000 0.759986 1 0.610154 0.000000 1.000000 1.000000 2 0.329499 1.000000 0.875624 0.000000 3 0.000000 0.934370 0.731172 0.739260 >>> (df_test_1 - df_test_1.min()) / (df_test_1.max() - df_test_1.min())#方法二 0 1 2 3 0 1.000000 0.823413 0.000000 0.759986 1 0.610154 0.000000 1.000000 1.000000 2 0.329499 1.000000 0.875624 0.000000 3 0.000000 0.934370 0.731172 0.739260
结果一致且正确
以上这篇pandas 对每一列数据进行标准化的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们。
相关推荐
-
pandas 数据归一化以及行删除例程的方法
如下所示: #coding:utf8 import pandas as pd import numpy as np from pandas import Series,DataFrame # 如果有id列,则需先删除id列再进行对应操作,最后再补上 # 统计的时候不需要用到id列,删除的时候需要考虑 # delete row def row_del(df, num_percent, label_len = 0): #print list(df.count(axis=1)) col_num = l
-
python merge、concat合并数据集的实例讲解
数据规整化:合并.清理.过滤 pandas和python标准库提供了一整套高级.灵活的.高效的核心函数和算法将数据规整化为你想要的形式! 本篇博客主要介绍: 合并数据集:.merge()..concat()等方法,类似于SQL或其他关系型数据库的连接操作. 合并数据集 1) merge 函数参数 参数 说明 left 参与合并的左侧DataFrame right 参与合并的右侧DataFrame how 连接方式:'inner'(默认):还有,'outer'.'left'.'right' on
-
对pandas进行数据预处理的实例讲解
参加kaggle数据挖掘比赛,就第一个赛题Titanic的数据,学习相关数据预处理以及模型建立,本博客关注基于pandas进行数据预处理过程.包括数据统计.数据离散化.数据关联性分析 引入包和加载数据 import pandas as pd import numpy as np train_df =pd.read_csv('../datas/train.csv') # train set test_df = pd.read_csv('../datas/test.csv') # test set
-
pandas 对每一列数据进行标准化的方法
两种方式 >>> import numpy as np >>> import pandas as pd Backend TkAgg is interactive backend. Turning interactive mode on. >>> np.random.seed(1) >>> df_test = pd.DataFrame(np.random.randn(4,4)* 4 + 3) >>> df_test 0
-
pandas数据框,统计某列数据对应的个数方法
现在要解决的问题如下: 我们有一个数据的表 第7列有许多数字,并且是用逗号分隔的,数字又有一个对应的关系: 我们要得到第7列对应关系的统计,就是每一行的第7列a有多少个,b有多少个 好了,我给的解决方法如下: #!/bin/python #-*-coding:UTF-8-*- import pandas as pd import numpy as np dfidspec = pd.read_table("one.txt")#这个是对应关系的文件 dfmgs = pd.read_tabl
-
pandas DataFrame实现几列数据合并成为新的一列方法
问题描述 我有一个用于模型训练的DataFrame如下图所示: 其中的country.province.city.county四列其实是位置信息的不同层级,应该合成一列用于模型训练 方法: parent_teacher_data['address'] = parent_teacher_data['country']+parent_teacher_data['province']+parent_teacher_data['city']+parent_teacher_data['county'] 就
-
Python pandas删除指定行/列数据的方法实例
目录 1.滤除缺失数据dropna() 1)滤除含有NaN值的所有行 2)滤除含有NaN值的所有列 3)滤除元素都是NaN值的行 4)滤除元素都是NaN值的列 5)滤除指定列中含有缺失的行 2.删除重复值 drop_duplicates() 1)keep=“first” 2)keep=“last” 3)keep=False 4)删除指定列中重复项对应的行 3.根据指定条件删除行列drop() 1).删除指定列 2).删除指定行 总结 1.滤除缺失数据dropna() import pandas
-
DataFrame 将某列数据转为数组的方法
如下所示: playerIds =salaries_2016['playerID'].tolist() data['列名'].tolist() 以上这篇DataFrame 将某列数据转为数组的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们. 您可能感兴趣的文章: python读取文本中数据并转化为DataFrame的实例 pandas修改DataFrame列名的方法 pandas系列之DataFrame 行列数据筛选实例 Python将DataFrame的某一列
-
pandas将DataFrame的列变成行索引的方法
pandas提供了set_index方法可以将DataFrame的列(多列)变成行索引,通过reset_index方法可以将层次化索引的级别会被转移到列里面. 1.DataFrame的set_index方法 data = pd.DataFrame(np.arange(1,10).reshape(3,3),index=["a","b","c"],columns=["A","B","C"])
-
详细介绍在pandas中创建category类型数据的几种方法
在pandas中创建category类型数据的几种方法之详细攻略 T1.直接创建 category类型数据 可知,在category类型数据中,每一个元素的值要么是预设好的类型中的某一个,要么是空值(np.nan). T2.利用分箱机制(结合max.mean.min实现二分类)动态添加 category类型数据 输出结果 [NaN, 'medium', 'medium', 'fat'] Categories (2, object): ['medium', 'fat'] name ID
-
pandas DataFrame数据转为list的方法
首先使用np.array()函数把DataFrame转化为np.ndarray(),再利用tolist()函数把np.ndarray()转为list,示例代码如下: # -*- coding:utf-8-*- import numpy as np import pandas as pd data_x = pd.read_csv("E:/Tianchi/result/features.csv",usecols=[2,3,4])#pd.dataframe data_y = pd.read_
-
pandas 按日期范围筛选数据的实现
pandas 是 python 中一个功能强大的库,这里就不再复述了,简单介绍下用日期范围筛选 pandas 数据. 日期转换 用来筛选的列是 date 类型,所以这里要把要筛选的日期范围从字符串转成 date 类型 比如我的数据包含列名为 trade_date,从 20050101 - 20190926 的数据,我要筛选出 20050606 - 20071016 的数据,那么,先如下转换数据类型: s_date = datetime.datetime.strptime('20050606',
-
使用pandas模块实现数据的标准化操作
如下所示: 3σ 原则 (u-3*σ ,u+3*σ ) 离差标准化 (x-min)/(max-min) 标准差标准化 (x-u)/σ 小数定标标准化 x/10**k k=np.ceil(log10(max(|x|))) 1.3σ原则 u 均值 σ 标准差 正太分布的数据基本都分布在(u-3σ,u+3σ)范围内 其他的数据 import pandas as pd import numpy as np def three_sigma(se): """ 自实现3σ原则,进行数据过滤
随机推荐
- git恢复删除的分支及内容的方法
- jQuery实现form表单元素序列化为json对象的方法
- js COL能很好的控制表格的列
- QQ好友列表树形列表java代码实现代码
- python出现"IndentationError: unexpected indent"错误解决办法
- System.Data.SqlClient.SqlException: 无法打开登录所请求的数据库 登录失败。
- 教你如何使用firebug调试功能了解javascript闭包和this
- JavaScript原型链示例分享
- PHP实现适用于自定义的验证码类
- 将c#编写的程序打包成应用程序的实现步骤分享(安装,卸载) 图文
- 关于async和await的一些误区实例详解
- 详解WordPress开发中get_current_screen()函数的使用
- Python中的字典与成员运算符初步探究
- Android调用第三方QQ登录代码分享
- jQuery 类twitter的文本字数限制带提示效果插件
- 利用stream实现一个简单的http下载器
- Windows Server 2008 R2远程设置选项灰色解决方法
- Android中NavigationView的使用与相关问题解决
- 描述C#多线程中lock关键字的使用分析
- Drupal7 form表单二次开发要点与实例