R语言中do.call()的使用说明

简单参数设置就能搞定的事情,是不会用到do.call的。

在运用R的过程中总会碰到这样一类函数,它们接受的参数数量可以是任意的,该函数会处理这些参数,并返回处理结果。

最简单的例子就是data.frame

比如:

> x1 = 1:10
> x2 = 11:20
> x3 = 21:30
> data.frame(x1,x2,x3)
   x1 x2 x3
1   1 11 21
2   2 12 22
3   3 13 23
4   4 14 24
5   5 15 25
6   6 16 26
7   7 17 27
8   8 18 28
9   9 19 29
10 10 20 30

你可以在data.frame函数中加入任意多的向量参数(x1,x2,x3都是向量)。

不过现在的情况是:你明确知道你仅将这三个向量拼凑成一个数据框就行了,那么,你写成data.frame(x1,x2,x3)是最好的方法,没必要写成如下的方式:

> do.call("data.frame",list(x1,x2,x3))
   X1.10 X11.20 X21.30
1      1     11     21
2      2     12     22
3      3     13     23
4      4     14     24
5      5     15     25
6      6     16     26
7      7     17     27
8      8     18     28
9      9     19     29
10    10     20     30

不过,假设你遇到的情况是这样:你现在需要从磁盘上的某个文件中读入所有行次的数据,但是随情况变化,文件的长度会发生改变。

可是你打算编写一个能同时应对各种长度文件的程序,程序目的是将文件中各行的内容竖过来,按列组成一个数据框。

那么请问你有哪些方法?——read.table()+t(),好吧,我承认我又输了,看来do.call还不是最好的选项。

那么如果这个文件各行的类型不同呢?比如一行字符,一行数字,一行布尔值,如此循环延伸,你又能怎么办?

f = file("abc.txt", "r")
n = length(count.fields("abc.txt")) / 3
l = list()
for (i in 1:n) {
        l[[(i-1)*3 + 1]] = scan(file = f, sep = ",", nlines = 1, what = "", quiet = TRUE)
        l[[(i-1)*3 + 2]] = scan(file = f, sep = ",", nlines = 1, what = 0, quiet = TRUE)
        l[[(i-1)*3 + 3]] = scan(file = f, sep = ",", nlines = 1, what = TRUE, quiet = TRUE)
}
names(l) = paste("l", 1:length(l), sep = "")
r = do.call("data.frame", l)
print(r)

仍然有替代方案:

(1)我就用read.table()+t(),大不了事后再按列转换类型!

(2)仍然是上述循环,我不要每次都把值押入list中,我直接创建data.frame,之后再用cbind()逐列添加,这样就用不着do.call了

那么现在再次提高难度:取消转置函数t()的使用,不允许使用cbind()函数。那么你只能用do.call了。

我其实一点都不蛮横,只要换一种情境即可——ffbase包,专门处理大数据的扩展包,其中ffdf对象与data.frame类似(不过可容纳更多数据),但不容易增添新列,且无法转置!ffdf函数是什么你不需要知道,你只要知道它也可以添加任意多的参数即可。

好吧,下面就是一个涉及ffbase包的程序片段

来感受一下do.call的用法吧:

addStrategyData <- function(detailList, index) {

  a = list()
  x = detailList[[index]]
  vMode = sapply(names(x), function(y) switch(y,
      "s" = "integer",
      "t" = "double",
      "f" = "logical"))

  names(vMode) = names(x)
  x = as.ffdf(x, vmode = vMode)

  for (i in 1:ncol(x)) a[[i]] = x[[i]]
  for (i in (length(a) + 1:length(detailList))) a[[i]] = ff(FALSE, length = nrow(x), vmode = "logical")
  a[[ncol(x) + index]] = ff(TRUE, length = nrow(x), vmode = "logical")
  names(a) = c(names(x), paste("S", 1:length(detailList), sep = ""))
  return(do.call("ffdf", a))
}

某些情况下,你知道某个函数接受参数的明确个数,但是太多了,你懒,所以用do.call;但更多的情况是你迫不得已,必须用它。

补充:R中的LAPPLY和DO.CALL有什么区别?

最近我在学习R,两个函数lapply和do.call混淆了。 看起来,它们和Lisp中的map函数类似。 但是为什么有两个不同的名字呢? 为什么R不使用称为map的函数?

有一个称为Map的function,可能与其他语言的地图类似:

lapply

返回与X相同长度的列表,其中每个元素都是将FUN应用于X的对应元素的结果。

do.call

构造并执行一个函数调用,从一个名字或一个函数和一个参数列表传递给它。

Map将一个函数应用到给定vector的相应元素… Map是一个简单的mapply包装,它不会试图简化结果,类似于Common Lisp的mapcar(但是参数被回收)。 未来的版本可能允许对结果types进行一些控制。

1、Map是mapply的包装

2、lapply是mapply

3、因此在许多情况下Map和lapply将是相似的。

例如,这里是lapply :

 lapply(iris, class) $Sepal.Length [1] "numeric" $Sepal.Width [1] "numeric" $Petal.Length [1] "numeric" $Petal.Width [1] "numeric" $Species [1] "factor" 

和使用Map :

 Map(class, iris) $Sepal.Length [1] "numeric" $Sepal.Width [1] "numeric" $Petal.Length [1] "numeric" $Petal.Width [1] "numeric" $Species [1] "factor" 

do.call采用一个函数作为input,并将其他参数泼到函数上。 例如,它被广泛用于将列表组装成更简单的结构(通常使用rbind或cbind )。

例如:

 x <- lapply(iris, class) do.call(c, x) Sepal.Length Sepal.Width Petal.Length Petal.Width Species "numeric" "numeric" "numeric" "numeric" "factor" 

lapply在列表上应用一个函数, do.call用参数列表调用一个函数。 这对我来说看起来很不一样

用列表举个例子:

 X <- list(1:3,4:6,7:9) 

用lapply你可以得到列表中每个元素的意思:

 > lapply(X,mean) [[1]] [1] 2 [[2]] [1] 5 [[3]] [1] 8 

do.call给出一个错误,正如意味着参数“trim”为1。

另一方面, rbind绑定所有参数。 所以绑定X行,你做:

 > do.call(rbind,X) [,1] [,2] [,3] [1,] 1 2 3 [2,] 4 5 6 [3,] 7 8 9 

如果你使用lapply ,R会将rbind应用于列表中的每一个元素,给你这个废话:

 > lapply(X,rbind) [[1]] [,1] [,2] [,3] [1,] 1 2 3 [[2]] [,1] [,2] [,3] [1,] 4 5 6 [[3]] [,1] [,2] [,3] [1,] 7 8 9 

要有像Map这样的东西,你需要?mapply ,这是完全不同的东西。 为了得到例如X中每个元素的平均值,但是使用不同的修整,可以使用:

 > mapply(mean,X,trim=c(0,0.5,0.1)) [1] 2 5 8 

lapply与map类似, do.call不是。 lapply将函数应用于列表的所有元素, do.call调用一个函数,其中所有的函数参数都在列表中。 所以对于一个n元素列表, lapply有n函数调用, do.call只有一个函数调用。 所以do.call与lapply完全不同。 希望这个澄清你的问题。

一个代码示例:

 do.call(sum, list(c(1,2,4,1,2), na.rm = TRUE)) 

和:

 lapply(c(1,2,4,1,2), function(x) x + 1) 

用最简单的话来说:

lapply()为列表中的每个元素应用一个给定的函数,所以会有几个函数调用。

do.call()将给定的函数作为一个整体应用于列表,所以只有一个函数调用。

最好的学习方法是在R文档中使用函数示例。

lapply()是一个类似地图的函数。 do.call()是不同的。 它用于将parameter passing给列表forms的函数,而不是枚举它们。 例如,

 > do.call("+",list(4,5)) [1] 9 

虽然有很多答案,这里是我的例子供参考。 假设我们有一个数据列表:

 L=list(c(1,2,3), c(4,5,6)) 

函数lapply返回一个列表。

 lapply(L, sum) 

上面的意思就像下面这样。

 list( sum( L[[1]]) , sum( L[[2]])) 

现在让我们为do.call做同样的事情

 do.call(sum, L) 

它的意思是

 sum( L[[1]], L[[2]]) 

在我们的例子中,它返回21.总之,lapply总是返回一个列表,而do.call的返回types实际上取决于执行的函数。

两者的区别是:

 lapply(1:n,function,parameters) 

=>这个发送1,参数到function=>这个发送2,参数到function等等

 do.call 

只需发送1 … n作为一个向量和参数来运行

所以在应用你有n个函数调用,在do.call中你只有一个

我觉得在这方面一个重要的方面没有得到certificate(或对我来说不明显)。 也就是说,您可以使用do.call将list中的命名parameter passing给函数。

例如, runif需要参数n , min和max 。 可以使用do.call来传递这些信息,如下所示。

 para <- list(n = 10, min = -1, max = 1) do.call(runif, para) #[1] -0.4689827 -0.2557522 0.1457067 0.8164156 -0.5966361 0.7967794 #[7] 0.8893505 0.3215956 0.2582281 -0.8764275 

以上为个人经验,希望能给大家一个参考,也希望大家多多支持我们。如有错误或未考虑完全的地方,望不吝赐教。

(0)

相关推荐

  • R语言ggplot2包之坐标轴详解

    引言 我们还可以对图形中的坐标轴进行处理,包括x.y轴对换.设定坐标轴范围.刻度线修改与去除等等.要想对图形玩得转,坐标轴处理精通不可或缺. 坐标轴对换 我们使用coord_flip()函数来对换坐标轴. library(ggplot2) library(gcookbook) ggplot(PlantGrowth, aes(x=group, y=weight)) + geom_boxplot() ggplot(PlantGrowth, aes(x=group, y=weight)) + geom

  • R语言科学计数法介绍:digits和scipen设置方式

    控制R语言科学计算法显示有两个option: digitis和scipen.介绍的资料很少,而且有些是错误的.经过翻看R语言的帮助和做例子仔细琢磨,总结如下: 默认的设置是: getOption("digits") [1] 7 getOption("scipen") [1] 0 digits 有效数字字符的个数,默认是7, 范围是[1,22] scipen 科学计数显示的penalty,可以为正为负,默认是0 R输出数字时,使用普通数字表示的长度 <= 科学计

  • R语言实现对数据框按某一列分组求组内平均值

    可使用aggregate函数 如: aggregate(.~ID,data=这个数据框名字,mean) 如果是对数据框分组,组内有重复的项,对于重复项保留最后一行数据用: pcm_df$duplicated <- duplicated(paste(pcm_df$OUT_MAT_NO, pcm_df$Posit, sep = "_"), fromLast = TRUE) pcm_df <- subset(pcm_df, !duplicated) pcm_df$duplicat

  • R语言-如何定义数据框的列名

    1.在定义数据框时,定义列名: 例如: a<-c(2,23,45,6,7,1,6,7) b<-c(4,6,1,2,5,66,10,2) df<-data.frame(a,b) 此时数据框df中的列名分别是a.b 也可以如下: df<-data.frame(a1=a,b1=b) 此时的列名是a1.b1 2.修改数据框中列的名字 如果希望修改数据框中的列名,可以使用name函数进行修改 例如: names(df)<-c("a2","b2")

  • R语言-t分布正态分布分位数图的实例

    R是用于统计分析.绘图的语言和操作环境. R是属于GNU系统的一个自由.免费.源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具. 它是一套由数据操作.计算和图形展示功能整合而成的套件. 包括:有效的数据存储和处理功能,一套完整的数组(特别是矩阵)计算操作符,拥有完整体系的数据分析工具,为数据分析和显示提供的强大图形功能,一套(源自S语言)完善.简单.有效的编程语言(包括条件.循环.自定义函数.输入输出功能). 如何用RStudio做分位数图呢? #分位数图,画t分布密度带p值 x=se

  • R语言中igraph包的用法(邻接矩阵)

    先导入igraph包: library(igraph) graph包最简单的用法就是graph方法,两句代码就完成绘制如下所示,1的loop表示为(1,1),1和2之间有3条edge,表示为(1,2,1,2,1,2) g <- graph(c(1,1,1,2,1,2,1,2,1,5,2,3,2,4,2,5,3,3,3,4,3,4,3,4,4,5),directed = FALSE) plot(g) 如果用顶点的邻接矩阵表示,仍以上图为例: 则对1,1有loop,与2有条edge,与5有一条edg

  • R语言-计算平均值不同函数的区别说明

    函数mean > mean(x) > num x1 x2 x3 10378050.50 89.45 81.18 80.45 此时对编号也求了平均值,不过往往我们只想对后面的数据求平均值.而且此时会出现一个警告.因为x是一个数据框,不是数值,所以不能直接用mean()函数. 函数colMeans() > colMeans(x) num x1 x2 x3 10378050.50 89.45 81.18 80.45 > colMeans(x)[c("x1","

  • R语言-如何将科学计数法表示的数字转化为文本

    统赛B组我们选择了图书馆课题,获得了数据,一时兴起尝试处理了一下门禁的数据,遇到了一些问题,特此记下,方便以后查阅. 门禁数据分为两个变量,第一列为学号,第二列为进门时间,原本是Excel文件,为了方便读入R我把它另存为了csv文件,但在读入R以后出现了一些问题 1.学号被存储为了科学计数法表示的数字 2.时间显示的也不全面,有些乱码 时间问题可以在Excel中把单元格格式设置一下就解决了,但是学号问题却遇到了一些小麻烦,我本来是想用 menjin$studentcode <- as.chara

  • R语言中do.call()的使用说明

    简单参数设置就能搞定的事情,是不会用到do.call的. 在运用R的过程中总会碰到这样一类函数,它们接受的参数数量可以是任意的,该函数会处理这些参数,并返回处理结果. 最简单的例子就是data.frame 比如: > x1 = 1:10 > x2 = 11:20 > x3 = 21:30 > data.frame(x1,x2,x3) x1 x2 x3 1 1 11 21 2 2 12 22 3 3 13 23 4 4 14 24 5 5 15 25 6 6 16 26 7 7 17

  • 详解R语言中的PCA分析与可视化

    1. 常用术语 (1)标准化(Scale) 如果不对数据进行scale处理,本身数值大的基因对主成分的贡献会大.如果关注的是变量的相对大小对样品分类的贡献,则应SCALE,以防数值高的变量导入的大方差引入的偏见.但是定标(scale)可能会有一些负面效果,因为定标后变量之间的权重就是变得相同.如果我们的变量中有噪音的话,我们就在无形中把噪音和信息的权重变得相同,但PCA本身无法区分信号和噪音.在这样的情形下,我们就不必做定标. (2)特征值 (eigen value) 特征值与特征向量均为矩阵分

  • R语言中的vector(向量),array(数组)使用总结

    对于那些有一点编程经验的人来说,vector,matrix,array,list,data.frame就相当于编程语言中的容器,因为只是将R看做数据处理工具所以它们的底层是靠什么实现的,内存怎么处理的具体也不要深究. R语言很奇怪的是它是面向对象的语言,所以经常会调用系统的方法,而且更奇怪的是总是调用"谓语"的方法,用起来像是写句子一样,记起来真是让人费解.比如is.vector(),read.table(),as.vector().. 直接开始吧:(由于习惯,大部分用"=&

  • R语言中R-squared与Adjust R-squared参数的解释

    前言 最近做项目时,使用 R语言对一些数据做回归计算,分析数据时,想查看这堆数据的相关性,得知R-squared可以得到我想要的信息,但是在打印线性关系式时,看到了R-squared,Adjust R-squared 这两个参数,有点疑惑,上网也查看了一部分资料,最后,发现有两道题可以很明白解释这两个参数,如下: 题一 如果在线性回归模型中增加一个特征变量,下列可能发生的是(多选)? A. R-squared 增大,Adjust R-squared 增大 B. R-squared 增大,Adju

  • R语言中cbind、rbind和merge函数的使用与区别

    cbind: 根据列进行合并,即叠加所有列,m列的矩阵与n列的矩阵cbind()最后变成m+n列,合并前提:cbind(a, c)中矩阵a.c的行数必需相符 rbind: 根据行进行合并,就是行的叠加,m行的矩阵与n行的矩阵rbind()最后变成m+n行,合并前提:rbind(a, c)中矩阵a.c的列数必需相符 > a <- matrix(1:12, 3, 4) > print(a) [,1] [,2] [,3] [,4] [1,] 1 4 7 10 [2,] 2 5 8 11 [3,

  • R语言中Fisher判别的使用方法

    最近编写了Fisher判别的相关代码时,需要与已有软件比照结果以确定自己代码的正确性,于是找到了安装方便且免费的R.这里把R中进行Fisher判别的方法记录下来. 1. 判别分析与Fisher判别 不严谨但是通俗的说法,判别分析(Discriminant Analysis)是一种多元(多个变量)统计分析方法,它根据样本的多个已知变量的值对样本进行分类的方法.一般来说,判别分析由两个阶段构成--学习(训练)和判别.在学习阶段,给定一批已经被分类好的样本,根据它们的分类情况和样本的多个变量的值来学习

  • R语言中for循环的并行处理方式

    前言 本文用于记录笔者在将R语言中的for语句并行化处理中的一些问题. 实验 这里使用foreach和doParallel包提供的函数实现for语句的并行处理. for语句脚本 func <- function(x, y, z) { return(x^y/z) } # >>> main <<< x <- 2 y <- 3 z <- 1:100000 start <- (proc.time())[3][[1]] a <- 0 for (

  • R语言中的fivenum与quantile()函数算法详解

    fivenum()函数: 返回五个数据:最小值.下四分位数数.中位数.上四分位数.最大值 对于奇数个数字=5,fivenum()先排序,依次返回最小值.下四分位数.中位数.上四分位数.最大值 > fivenum(c(1,12,40,23,13)) [1] 1 12 13 23 40 对于奇数个数字>5,fivenum()先排序,我们可以求取最小值,最大值,中位数.在排序中,最小值与中位数中间,若为奇数,取其中位数为下四分位数,若为偶数,取最中间两个数的平均值为下四分位数:在排序中,中位数与最大

  • R语言中c()函数与paste()函数的区别说明

    c()函数:将括号中的元素连接起来,并不创建向量 paste()函数:连接括号中的元素 例如 c(1, 2:4),结果为1 2 3 4 paste(1, 2:4),结果为"1 2" "1 3" "1 4" c(2, "and"),结果为"2" "and" paste(2, "and"),结果为"2 and" 补充:R语言中paste函数的参数sep

  • R语言中cut()函数的用法说明

    R语言cut()函数使用 cut()切割将x的范围划分为时间间隔,并根据其所处的时间间隔对x中的值进行编码. 参数:breaks:两个或更多个唯一切割点或单个数字(大于或等于2)的数字向量,给出x被切割的间隔的个数. breaks采用fivenum():返回五个数据:最小值.下四分位数.中位数.上四分位数.最大值. labels为区间数,打标签 ordered_result 逻辑结果应该是一个有序的因素吗? 先用fivenum求出5个数,再用labels为每两个数之间,贴标签,采用(]的区间,

随机推荐