R语言中的fivenum与quantile()函数算法详解

fivenum()函数:

返回五个数据:最小值、下四分位数数、中位数、上四分位数、最大值

对于奇数个数字=5,fivenum()先排序,依次返回最小值、下四分位数、中位数、上四分位数、最大值

> fivenum(c(1,12,40,23,13))
[1]  1 12 13 23 40

对于奇数个数字>5,fivenum()先排序,我们可以求取最小值,最大值,中位数。在排序中,最小值与中位数中间,若为奇数,取其中位数为下四分位数,若为偶数,取最中间两个数的平均值为下四分位数;在排序中,中位数与最大值中间,若为奇数,取其中位数为上四分位数,若为偶数,取最中间两个数的平均值为上四分位数;

> fivenum(c(2,6,20,8,10,120,30,130,250))
[1]   2   8  20 120 250
> fivenum(c(2,6,20,13,8,10,120,30,130,140,250))
[1]   2   9  20 125 250

对于偶数个数字=4,我们可以先求取最小值,最大值。中位数由最中间相邻的数取平均求出;下四分位数由最小值与其相邻的数求出;上四分位数由最大值与其相邻的数求出;

> fivenum(c(1,10,23,8))
[1]  1.0  4.5  9.0 16.5 23.0

对于偶数个数字>4,排序,在排序中,中位数为最中间两个数的平均值,最小值与中位数前一个数中间,若为奇数,取其中位数为下四分位数,若为偶数,取最中间两个数的平均值为下四分位数;在排序中,中位数后一个数与最大值中间,若为奇数,取其中位数为上四分位数,若为偶数,取最中间两个数的平均值为上四分位数;

> fivenum(c(1,2,3,4,8,10,11,12,14,23))
[1]  1  3  9 12 23
> fivenum(c(1,2,3,8,10,11,14,23))
[1]  1.0  2.5  9.0 12.5 23.0

fivenum()函数或者通过计算位置推出分位数,即:

位置:y=p*(n-1)+1,n为数值个数;

若y为整数,则该位置的数即为所求分位数的值,若y为分数,将该位置前后的两数算数平均即可。

quantile()函数:

R语言中的quantile()是分位数函数,其算法是加权平均,第N个分位数就表示数据集中有N%的数据小于它。

默认情况下,quantile()会告诉你数据集0%,25%,50%,75%,100%位置处的数据,具体算法为:

位置:y=p*(n-1)+1,然后根据位置进行加权平均。

以1-10为例,20%分位数为例,首先位数=1+(10-1)*20%=2.8,所以此分位数在第二和第三个数之间,更靠近第三个数(2<2.8<3),算法:2*0.2+3*0.8=2.8,权重即越靠近某值,其权重越大,靠近3,则权重为0.8,越远离某值,其权重越小,远离2,则权重为0.2,两个权重和为1。

> quantile(c(1,3,5,7,9,11,13,15))
  0%  25%  50%  75% 100%
 1.0  4.5  8.0 11.5 15.0 

25%分位数:

y=0.25*(8-1)+1=2.75;s=3*0.25+5*0.75=4.5

75%分位数:

y=0.75*(8-1)+1=6.25;s=11*0.75+13*0.25=11.5

补充:R语言 quantile()和fivenum()的差别在于——加权平均与算术平均

quantile()和fivenum()的本质差别在于, quantile()函数的算法是采用加权平均, fivenum()是算术平均。这么说可能不易理解,其实很简单的,下面举个例子说明就容易理解了。

例如,一组数据 x <- 11 : 18,则如下图,第一位是11,第二位是12,,,第8位是18,

对于 quantile()算法——加权平均,

0%位是第1位( 1+(8-1)*0%=1 ),

值为11; 25%位是第2.75位(1+(8-1)*25%=2.75 ),

第2.75位介于第2位和第3位之间,距离哪位较近,哪位数据的权重较大,所以第3位数据的权重是0.75,第2位数据是

权重是0.25,则25%位的值=13*0.75+12*0.25=12.75;

同理,50%位是第4.5位( 1+(8-1)*50%=4.5 ),值=14*0.5+15*0.5=14.5;

75%位是第6.25位( 1+(8-1)*75%=6.25 ),值=16*0.75+17*0.25=16.25;

100%位是第8位( 1+(8-1)*100%=8 ),值为18;

对于fivenum ()算法——算术平均,

0%位是第1位( 1+(8-1)*0%=1 ),值为11;

25%位是第2.75位(1+(8-1)*25%=2.75 ),第2.75位介于第2位和第3位之间,用算术平均法,则25%位的值=(13+12)/2=12.5;

同理,50%位是第4.5位( 1+(8-1)*50%=4.5 ),值=(14+15)/2=14.5;

75%位是第6.25位( 1+(8-1)*75%=6.25 ),值=(16+17)/2=16.5;

100%位是第8位( 1+(8-1)*100%=8 ),值为18;

用r语言验证:

quantile()的代码

x <- 1:100
n <- length(x)
probs = seq(0, 1, 0.25)
index <- 1 + (n - 1) * probs
lo <- floor(index)
hi <- ceiling(index)
x <- sort(x, partial = unique(c(lo, hi)))
qs <- x[lo]
i <- which(index > lo)
h <- (index - lo)[i]
qs[i] <- (1 - h) * qs[i] + h * x[hi[i]]
qs
quantile(x=1:100)

fivenum ()的代码

x <- 1:100
n <- length(x)
n4 <- floor((n + 3)/2)/2
d <- c(1, n4, (n + 1)/2, n + 1 - n4, n)
0.5 * (x[floor(d)] + x[ceiling(d)])
fivenum(x=1:100) 

以上为个人经验,希望能给大家一个参考,也希望大家多多支持我们。如有错误或未考虑完全的地方,望不吝赐教。

(0)

相关推荐

  • R语言:数据筛选match的使用详解

    数据筛选是在分析中最常用的步骤,如微生物组分析中,你的OTU表.实验设计.物种注释之间都要不断筛选,来进行数据对齐,或局部分析. 今天来详解一下此函数的用法. match match:匹配两个向量,返回x中存在的返回索引或TRUE.FALSE match函数使用格式有如下两种: 第一种方便设置参数,返回x中元素在table中的位置 match(x, table, nomatch = NA_integer_, incomparables = NULL) 第二种简洁,返回x中每个元素在table中是

  • R语言-summary()函数的用法解读

    summary():获取描述性统计量,可以提供最小值.最大值.四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计等. 结果解读如下: 1. 调用:Call lm(formula = DstValue ~ Month + RecentVal1 + RecentVal4 + RecentVal6 + RecentVal8 + RecentVal12, data = trainData) 当创建模型时,以上代码表明lm是如何被调用的. 2. 残差统计量:Residuals Min 1Q M

  • R语言中assign函数和get函数的用法

    assign函数在循环时候,给变量赋值,算是比较方便 1.给变量赋值 for (i in 1:(length(rowSeq)-1)){ assign(paste("nginx_server_fields7_", i, sep = ""), nginx_server_fields7[(rowSeq[(i-1)+1]):(rowSeq[i+1]), ]) } 2.通过for循环给变量a1.a2.a3赋值 for (i in 1:3){ assign(paste(&quo

  • R语言中c()函数与paste()函数的区别说明

    c()函数:将括号中的元素连接起来,并不创建向量 paste()函数:连接括号中的元素 例如 c(1, 2:4),结果为1 2 3 4 paste(1, 2:4),结果为"1 2" "1 3" "1 4" c(2, "and"),结果为"2" "and" paste(2, "and"),结果为"2 and" 补充:R语言中paste函数的参数sep

  • R语言中cut()函数的用法说明

    R语言cut()函数使用 cut()切割将x的范围划分为时间间隔,并根据其所处的时间间隔对x中的值进行编码. 参数:breaks:两个或更多个唯一切割点或单个数字(大于或等于2)的数字向量,给出x被切割的间隔的个数. breaks采用fivenum():返回五个数据:最小值.下四分位数.中位数.上四分位数.最大值. labels为区间数,打标签 ordered_result 逻辑结果应该是一个有序的因素吗? 先用fivenum求出5个数,再用labels为每两个数之间,贴标签,采用(]的区间,

  • R语言中if(){}else{}语句和ifelse()函数的区别详解

    首先看看定义: # if statement if(cond) expr if(cond) cons.expr else alt.expr # ifelse function ifelse(test, yes, no) 这两个函数(R语言中都是函数)相同的地方都是根据条件返回对应的值. 区别在于: if语句的条件是个TRUE/FALSE值,如果是个长度>1的逻辑向量,只判断第一个TRUE/FALSE值:而ifelse是长度任意的逻辑向量,返回根据逻辑向量对应对的yes/no值组合的新向量 ife

  • R语言-生成频数表和列联表crosstable函数介绍

    列联表crosstable 列联表不仅可以用来做简单的描述性统计,还可以在机器学习中用来比较识别正确率,FPR,TPR等等数据,以便我们比较不同的ML模型 or 调参. 2x2列联表一般长下面这样: Total Observations in Table: 143 | test_cancer$diagnosis lda.class | 0 | 1 | Row Total | -------------|-----------|-----------|-----------| 0 | 82 | 1

  • R语言中的fivenum与quantile()函数算法详解

    fivenum()函数: 返回五个数据:最小值.下四分位数数.中位数.上四分位数.最大值 对于奇数个数字=5,fivenum()先排序,依次返回最小值.下四分位数.中位数.上四分位数.最大值 > fivenum(c(1,12,40,23,13)) [1] 1 12 13 23 40 对于奇数个数字>5,fivenum()先排序,我们可以求取最小值,最大值,中位数.在排序中,最小值与中位数中间,若为奇数,取其中位数为下四分位数,若为偶数,取最中间两个数的平均值为下四分位数:在排序中,中位数与最大

  • Go语言中strings和strconv包示例代码详解

    前缀和后缀 HasPrefix判断字符串s是否以prefix开头: strings.HaxPrefix(s string, prefix string) bool 示例: package main import ( "fmt" "strings" ) func main() { pre := "Thi" str1 := "This is a Go program!" fmt.Println(strings.HasPrefix(

  • Go语言中io.Reader和io.Writer的详解与实现

    一.前言 也许对这两个接口和相关的一些接口很熟悉了,但是你脑海里确很难形成一个对io接口的继承关系整天的概貌,原因在于godoc缺省并没有像javadoc一样显示官方库继承关系,这导致了我们对io接口的继承关系记忆不深,在使用的时候还经常需要翻文档加深记忆. 本文试图梳理清楚Go io接口的继承关系,提供一个io接口的全貌. 二.io接口回顾 首先我们回顾一下几个常用的io接口.标准库的实现是将功能细分,每个最小粒度的功能定义成一个接口,然后接口可以组成成更多功能的接口. 最小粒度的接口 typ

  • Go语言中Slice常见陷阱与避免方法详解

    目录 前言 slice 作为函数 / 方法的参数进行传递的陷阱 slice 通过 make 函数初始化,后续操作不当所造成的陷阱 性能陷阱 内存泄露 扩容 前言 Go 语言提供了很多方便的数据类型,其中包括 slice.然而,由于 slice 的特殊性质,在使用过程中易犯一些错误,如果不注意,可能导致程序出现意外行为.本文将详细介绍 使用 slice 时易犯的一些错误,帮助读者更好的使用 Go 的 slice,避免犯错误. slice 作为函数 / 方法的参数进行传递的陷阱 slice 作为参数

  • 汇编语言中mov和lea指令的区别详解

    指令(instruction)是一种语句,它在程序汇编编译时变得可执行.汇编器将指令翻译为机器语言字节,并且在运行时由 CPU 加载和执行. 一条指令有四个组成部分: 标号(可选) 指令助记符(必需) 操作数(通常是必需的) 注释(可选) 最近在学习汇编语言,过程中遇到很多问题,对此在以后的随笔会逐渐更新,这次谈谈mov,lea指令的区别   一,关于有没有加上[]的问题 1,对于mov指令来说: 有没有[]对于变量是无所谓的,其结果都是取值 如: num dw 2 mov bx,num mov

  • C语言中0数组\柔性数组的使用详解

    前言: 上次看到一篇面试分享,里面有个朋友说,面试官问了char[0] 相关问题,但是自己没有遇到过,就绕过了这个问题. 我自己在这篇文章下面做了一些回复. 现在我想结合我自己的理解,解释一下这个 char[0] C语言柔性数组的问题. 0数组和柔性数组的介绍 0数组顾名思义,就是数组长度定义为0,我们一般知道数组长度定义至少为1才会给它分配实际的空间,而定义了0的数组是没有任何空间,但是如果像上面的结构体一样在最后一个成员定义为零数组,虽然零数组没有分配的空间,但是它可以当作一个偏移量,因为数

  • C语言中typedef的用法以及#define区别详解

    目录 1.简洁定义 2.为已有类型起别名 为字符数组起别名 为指针起别名 3.typedef 和 #define 的区别 总结 1.简洁定义 C语言允许为一个数据类型起一个新的别名,就像给人起"绰号"一样.而编程中起别名,是为了编程人员编程方便,例如: 定义如下结构体 struct stu { int ID; char name[20]; float score[3]; char *data; }; 要想定义一个结构体变量就得这样写: struct stu Marry://Marry是

  • Rust语言中的String和HashMap使用示例详解

    目录 String 新建字符串 更新字符串 使用 + 运算符或 format! 宏拼接字符串 索引字符串 字符串 slice 遍历字符串 HashMap 新建 HashMap HashMap 和 ownership 访问 HashMap 中的值 更新 HashMap 直接覆盖 新插入 更新旧值 总结 String 字符串是比很多开发者所理解的更为复杂的数据结构.加上 UTF-8 的不定长编码等原因,Rust 中的字符串并不如其它语言中那么好理解. Rust 的核心语言中只有一种字符串类型:str

  • C语言中经socket接收数据的相关函数详解

    recv()函数: 头文件: #include <sys/types.h> #include <sys/socket.h> 定义函数: int recv(int s, void *buf, int len, unsigned int flags); 函数说明:recv()用来接收远端主机经指定的socket 传来的数据, 并把数据存到由参数buf 指向的内存空间, 参数len 为可接收数据的最大长度. 参数 flags 一般设0. 其他数值定义如下: 1.MSG_OOB 接收以ou

  • C语言中dlopen和dlsym的使用方式详解

    目录 背景 demo 生产动态库 调用dlopen 总结 背景 为了是不同的逻辑解耦,一般会把各个业务封装成动态库,然后主逻辑去调用各个插件.这里有个问题是,为什么以前我们都是通过include第三方的头文件,然后通过连接器实现,现在却要利用dlopen呢?考虑以下情况,比如我们要用cublas这个库的sgemm函数. #include "cublas.h" int main() { cublas:: Mat a, b; cublas::sgemm(a,b); } 我们知道cublas

随机推荐