pandas之query方法和sample随机抽样操作

query方法

在 pandas 中,支持把字符串形式的查询表达式传入 query 方法来查询数据,其表达式的执行结果必须返回布尔列表。在进行复杂索引时,由于这种检索方式无需像普通方法一样重复使用 DataFrame 的名字来引用列名,一般而言会使代码长度在不降低可读性的前提下有所减少。

例如

In [61]: df.query('((School == "Fudan University")&'
  ....:     ' (Grade == "Senior")&'
  ....:     ' (Weight > 70))|'
  ....:     '((School == "Peking University")&'
  ....:     ' (Grade != "Senior")&'
  ....:     ' (Weight > 80))')
  ....:
Out[61]:
        School   Grade      Name Gender Weight Transfer
38  Peking University Freshman    Qiang Han  Male  87.0    N
66  Fudan University  Senior Chengpeng Zhou  Male  81.0    N
99  Peking University Freshman Changpeng Zhao  Male  83.0    N
131  Fudan University  Senior Chengpeng Qian  Male  73.0    Y

在 query 表达式中,帮用户注册了所有来自 DataFrame 的列名,所有属于该 Series 的方法都可以被调用,和正常的函数调用并没有区别,例如查询体重超过均值的学生:

In [62]: df.query('Weight > Weight.mean()').head()
Out[62]:
              School   Grade      Name Gender Weight Transfer
1        Peking University  Freshman Changqiang You  Male  70.0    N
2  Shanghai Jiao Tong University   Senior     Mei Sun  Male  89.0    N
4        Fudan University Sophomore   Gaojuan You  Male  74.0    N
10 Shanghai Jiao Tong University  Freshman  Xiaopeng Zhou  Male  74.0    N
14      Tsinghua University   Senior  Xiaomei Zhou Female  57.0    N

同时,在 query 中还注册了若干英语的字面用法,帮助提高可读性,例如: or, and, or, is in, not in 。

例如,筛选出男生中不是大一大二的学生:

In [63]: df.query('(Grade not in ["Freshman", "Sophomore"]) and'
  ....:     '(Gender == "Male")').head()
  ....:
Out[63]:
              School  Grade      Name Gender Weight Transfer
2  Shanghai Jiao Tong University Senior    Mei Sun  Male  89.0    N
16      Tsinghua University Junior Xiaoqiang Qin  Male  68.0    N
17      Tsinghua University Junior   Peng Wang  Male  65.0    N
18      Tsinghua University Senior  Xiaofeng Sun  Male  71.0    N
21 Shanghai Jiao Tong University Senior Xiaopeng Shen  Male  62.0   NaN

此外,在字符串中出现与列表的比较时, ==和!= 分别表示元素出现在列表和没有出现在列表,等价于 is in 和 not in,例如查询所有大三和大四的学生:

In [64]: df.query('Grade == ["Junior", "Senior"]').head()
Out[64]:
              School  Grade      Name Gender Weight Transfer
2  Shanghai Jiao Tong University Senior    Mei Sun  Male  89.0    N
7       Tsinghua University Junior Gaoqiang Qian Female  50.0    N
9        Peking University Junior    Juan Xu Female   NaN    N
11      Tsinghua University Junior  Xiaoquan Lv Female  43.0    N
12 Shanghai Jiao Tong University Senior    Peng You Female  48.0   NaN

对于 query 中的字符串,如果要引用外部变量,只需在变量名前加 @ 符号。例如,取出体重位于70kg到80kg之间的学生:

In [65]: low, high =70, 80

In [66]: df.query('Weight.between(@low, @high)').head()
Out[66]:
              School   Grade      Name Gender Weight Transfer
1        Peking University  Freshman Changqiang You  Male  70.0    N
4        Fudan University Sophomore   Gaojuan You  Male  74.0    N
10 Shanghai Jiao Tong University  Freshman  Xiaopeng Zhou  Male  74.0    N
18      Tsinghua University   Senior  Xiaofeng Sun  Male  71.0    N
35       Peking University  Freshman   Gaoli Zhao  Male  78.0    N

随机抽样

如果把 DataFrame 的每一行看作一个样本,或把每一列看作一个特征,再把整个 DataFrame 看作总体,想要对样本或特征进行随机抽样就可以用 sample 函数。有时在拿到大型数据集后,想要对统计特征进行计算来了解数据的大致分布,但是这很费时间。

同时,由于许多统计特征在等概率不放回的简单随机抽样条件下,是总体统计特征的无偏估计,比如样本均值和总体均值,那么就可以先从整张表中抽出一部分来做近似估计。

sample 函数中的主要参数为 n, axis, frac, replace, weights ,前三个分别是指抽样数量、抽样的方向(0为行、1为列)和抽样比例(0.3则为从总体中抽出30%的样本)。

replace 和 weights 分别是指是否放回和每个样本的抽样相对概率,当 replace = True 则表示有放回抽样。例如,对下面构造的 df_sample 以 value 值的相对大小为抽样概率进行有放回抽样,抽样数量为3。

In [67]: df_sample = pd.DataFrame({'id': list('abcde'),
  ....:              'value': [1, 2, 3, 4, 90]})
  ....:

In [68]: df_sample
Out[68]:
 id value
0 a   1
1 b   2
2 c   3
3 d   4
4 e   90

In [69]: df_sample.sample(3, replace = True, weights = df_sample.value)
Out[69]:
 id value
4 e   90
4 e   90
4 e   90

补充:pandas.DataFrame.sample 随机选取若干行

1、数据切片选取

1.1 pandas.DataFrame.sample 随机选取若干行

1.1.1 功能说明

有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。

功能相似:numpy.random.choice

Generates a random sample from a given 1-D numpy array.

1.1.2 使用说明

1.函数名及功能

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)[source]

2.输入参数说明

参数名称 参数说明 举例说明
n 要抽取的行数
df.sample(n=3,random_state=1)
提取3行数据列表
注意,使用random_state,以确保可重复性的例子。

frac
抽取行的比例
例如frac=0.8,就是抽取其中80%。

df.sample(frac=0.8, replace=True, random_state=1)
replace
是否为有放回抽样,
True:有放回抽样
False:未放回抽样


True:取行数据后,可以重复放回后再取
False:取行数据后不放回,下次取其它行数据
注意:当N>总数据容量,replace设置为值时有效

weights
字符索引或概率数组

axis=0:为行字符索引或概率数组
axis=1:为列字符索引或概率数组

random_state
int: 随机数发生器种子
或numpy.random.RandomState


random_state=None,取得数据不重复
random_state=1,可以取得重复数据

axis
选择抽取数据的行还是列
axis=0:抽取行
axis=1:抽取列

也就是说axis=1时,在列中随机抽取n列,在axis=0时,在行中随机抽取n行。

3. 返回值说明

返回选择的N行元素的DataFrame对象。

以上为个人经验,希望能给大家一个参考,也希望大家多多支持我们。如有错误或未考虑完全的地方,望不吝赐教。

(0)

相关推荐

  • python实现的分层随机抽样案例

    昨天写了一段用来做分层随机抽样的代码,很粗糙,不过用公司的2万名导购名单试了一下,结果感人,我觉得此刻的我已经要上天了,哈哈哈哈哈哈 代码如下: #分层随机抽样 stratified sampling import xlrd, xlwt, time, random xl = xlrd.open_workbook(r'C:\Users\Administrator\Desktop\分层抽样.xlsx') xl_sht1 = xl.sheets()[0] xl_sht1_nrows = xl_sht1

  • pandas 查询函数query的用法说明

    query() 函数简介 pandas的query()方法是基于DataFrame列的计算代数式,对于按照某列的规则进行过滤的操作,可以使用query方法. 代码示例 import pandas as pd df = pd.DataFrame({'a':[1, 2, 3, 4, 5, 6], 'b':[1, 2, 3, 4, 5, 6], 'c':[1, 2, 3, 4, 5, 6]}) query_list = [1, 2] df_2 = df.query('c not in @query_l

  • python Pandas如何对数据集随机抽样

    摘要:有时候我们只需要数据集中的一部分,并不需要全部的数据.这个时候我们就要对数据集进行随机的抽样.pandas中自带有抽样的方法. 应用场景: 我有10W行数据,每一行都11列的属性. 现在,我们只需要随机抽取其中的2W行. 实现方法很简单: 利用Pandas库中的sample. DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None) n是要抽取的行数.(例如n

  • pandas之query方法和sample随机抽样操作

    query方法 在 pandas 中,支持把字符串形式的查询表达式传入 query 方法来查询数据,其表达式的执行结果必须返回布尔列表.在进行复杂索引时,由于这种检索方式无需像普通方法一样重复使用 DataFrame 的名字来引用列名,一般而言会使代码长度在不降低可读性的前提下有所减少. 例如 In [61]: df.query('((School == "Fudan University")&' ....: ' (Grade == "Senior")&am

  • 动态表单验证的操作方法和TP框架里面的ajax表单验证

    动态验证的操作方法 function yz() { if(empty($_POST)) { $this->display(); } else { $db=D("Info"); $shu=array( array("Code","require","代号不能为空",0,"regex",3), ); if(!$db->validate($shu)->create()) { echo $db-&

  • Pandas sample随机抽样的实现

    随机抽样,是统计学中常用的一种方法,它可以帮助我们从大量的数据中快速地构建出一组数据分析模型.在 Pandas 中,如果想要对数据集进行随机抽样,需要使用 sample() 函数. sample() 函数的语法格式如下: DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None) 参数说明如下表所示: 参数名称 参数说明 n 表示要抽取的行数. frac 表示抽取的比

  • python DataFrame中stack()方法、unstack()方法和pivot()方法浅析

    目录 1.stack() 2. unstack() 3. pivot() 总结 1.stack() stack()用于将列索引转换为最内层的行索引,这样叙述比较抽象,看示例就容易理解啦: 准备一组数据,给其设置双索引. import pandas as pd data = [['A类', 'a1', 123, 224, 254], ['A类', 'a2', 234, 135, 444], ['A类', 'a3', 345, 241, 324], ['B类', 'b1', 112, 412, 46

  • Python数据分析之 Pandas Dataframe修改和删除及查询操作

    目录 一.查询操作 元素的查询 二.修改操作 行列索引的修改 元素值的修改 三.行和列的删除操作 一.查询操作 可以使用Dataframe的index属性和columns属性获取行.列索引. import pandas as pd data = {"name": ["Alice", "Bob", "Cindy", "David"], "age": [25, 23, 28, 24], &q

  • Apache中伪静态Rewrite的使用方法和URL重写规则表达式讲解

    目录 一.安装rewrite模块 二.配置文件httpd.conf中启用Rewrite 三.在服务器中找到配置文件vhosts.conf,启用.htaccess 四.在要启用伪静态的项目根目录下建立 .htaccess 文件 五.重启Apache服务器,就OK了 六.参数补充说明 apache中的mod_rewrite模块提供了一个基于正则表达式分析器的重写引擎来实时重写URL请求,主要的功能就是实现URL的跳转,它的正则表达式是基于Perl语言.可基于服务器级的(httpd.conf)和目录级

  • asp.net TemplateField模板中的Bind方法和Eval方法

    比如我们要取个日期型的数据,在数据库中列名是updated,数值是2008/06/01.但是想2008年06月01日这样显示,我们可以这样来写Bind("updated", "{0:yyyy年MM月dd日}"),Eval也是如此. 2者都能读取数据中的值,并显示.当我们使用编辑更新操作时,Bind能够自动的将修改的值更新到数据库中,并显示出修改后的值.但是用了Eval却只能得到错误画面,新的数据没有更新到数据库中. 从这点看来,Bind方法和Eval方法的区别就是:

  • ThinkPHP函数详解之M方法和R方法

    首先给大家介绍ThinkPHP函数详解:M方法 M方法用于实例化一个基础模型类,和D方法的区别在于: 1.不需要自定义模型类,减少IO加载,性能较好: 2.实例化后只能调用基础模型类(默认是Model类)中的方法: 3.可以在实例化的时候指定表前缀.数据库和数据库的连接信息: D方法的强大则体现在你封装的自定义模型类有多强,不过随着新版ThinkPHP框架的基础模型类的功能越来越强大,M方法也比D方法越来越实用了. M方法的调用格式: M('[基础模型名:]模型名','数据表前缀','数据库连接

  • 原生JS中slice()方法和splice()区别

    slice()方法和splice()方法都是原生js中对数组操作的方法.那么他两种有什么区别呢?今天通过本文教程给大家简单介绍下. slice(),返回一个新的数组,该方法可从已有的数组中返回选定的元素.例如:arrObject(start,end),start是必选的.规定从何处开始选取,如果是负数,则是从数组元素尾部选取,也就是说-1指最后一个元素,-2指倒数第二个元素:end是可选元素.规定从何处结束选取.该参数没有,表示从开始位置截取到数组末尾,如果是负数,表示从数组末尾向前截取元素.该

  • jquery中live()方法和bind()方法区别分析

    本文实例讲述了jquery中live()方法和bind()方法区别.分享给大家供大家参考,具体如下: live()不受加载时间顺序的影响,只要查找能够配对上就能够绑定对应的事件,而bind方法只有在第一次被加载的时候才绑定时间,如果代码之后再加载配对的元素,则不能绑定对应的事件 $("#manual_disconnect").live("click", function(){ connectionProfile("0"); }); $("

随机推荐