基于R语言赋值符号的区别说明
R语言赋值可以用=或<-,一般都建议使用<-,那你知道这两个之间的区间吗?那你有没有见过‘<-'和‘='这种赋值方法吗?今天就来和大家聊聊这基本的赋值符号都有哪些区别。
首先我们来看看符号的优先级,和java,c这些编程语言的优先级类似。下面这些都取自R帮助文档,输入?Syntax即可查看,它是根据优先级从高到低排列的。
:: ::: access variables in a namespace $ @ component / slot extraction [ [[ indexing ^ exponentiation (right to left) - + unary minus and plus : sequence operator %any% special operators (including %% and %/%) * / multiply, divide + - (binary) add, subtract < > <= >= == != ordering and comparison ! negation & && and | || or ~ as in formulae -> ->> rightwards assignment <- <<- assignment (right to left) = assignment (right to left) ? help (unary and binary)
我们可以看到<-的优先级比=高,这一点我们在使用时一定要注意到。
现在来举几个简单例子看看
> median(x =1:10) [1] 5.5> x 错误: 找不到对象'x' > median(x <-1:10) [1] 5.5 > x [1] 1 2 3 4 5 6 7 8 9 10
现在来看另外一个例子
> rm(x) > median((x=1:10)) [1] 5.5 > x [1] 1 2 3 4 5 6 7 8 9 10
那这又是为什么不报错了呢?那是因为括号的优先级更高,它相当于先给x赋值,再传入到median,与下面例子等价。
> rm(x) > x=1:10 #此时等价于x<-1:10 > median(x) [1] 5.5 > x [1] 1 2 3 4 5 6 7 8 9 10
为什么此时输入x并没有报错而前面却报错?因为在这种情况下,x被定义在用户的当前工作空间,所以在这个使用median之后x还是存在的。
总结一下:
这说明使用这两种方法赋值的变量是存在不同的空间或作用域。= 赋值对象存在赋值时所在的空间,而<- 赋值对象存在当前整个空间。
看起来有点晦涩,现在来仔细说说这两个的区别:
(1) 赋值时所在的空间,比如median(x =1:10),x的值仅存在median函数内部空间,在median函数外面访问不到x,所以前面程序中报错:错误: 找不到对象'x'。
(2) 当前整个空间,比如median(x <-1:10),它其实就是median(x=x <-1:10),<-优先级高,先执行x <-1:10,再赋值给x,只不过这里省略了,因为一般传参数时,我们都不写参数名。x存在于当前空间,所以x可以访问到。
如果我们定义一个函数,函数中变量用<-赋值,那么在函数外面还能访问到吗?
> rm(x) > test<-function(){ + x<-1 + } >test() > x
错误: 找不到对象'x'
当然是不能的,因为x定义在test函数内部,仅存在test函数的空间里面,所以在该函数外面根本访问不到x。如果想访问到x,除了returen,也不是没有其他办法的。
现在来看看另外一种赋值方法,估计很少人见过,了解之后有助于我们理解赋值过程。
> '<-'(x,5) #等价于x<-5 > x [1] 5 > '='(x,6)#等价于x=6 > x [1] 6
简单了解之后,来做几个测试
一般情况下,将=和<-两个赋值符号同时使用就会出现一些错误,比如下面这例子,如果了解'<-'之后,那么就很容易理解。
> x<-y<-10 #等价于'<-'(x,'<-'(y,10)) > x [1] 10 > y [1] 10 > x <- y = 12 Error in x <- y = 12 : 没有"<-<-"这个函数 # 由于优先级的问题,它等价于'='('<-'(x,y),12),并不是'<-'(x,'='(y,12)) > x=y<-12 #不报错,等价于 '='(x,'<-'(y,12))
这里主要是因为优先级的问题,<-的优先级高于=。
为了说明什么时候用这两种赋值方法,先随便看一个函数,比如scan函数,我们可以发现传递参数用的都是=,因此传参数基本都是用=而不是<-。
scan(file = "", what = double(), nmax = -1, n = -1, sep = "", quote = if(identical(sep, "\n")) "" else "'\"", dec = ".", skip = 0, nlines = 0, na.strings = "NA", flush = FALSE, fill = FALSE, strip.white = FALSE, quiet = FALSE, blank.lines.skip = TRUE, multi.line = TRUE, comment.char = "", allowEscapes = FALSE, fileEncoding = "", encoding = "unknown", text, skipNul = FALSE)
在R文档中有下面介绍(?assignOps ):文档中介绍说<-可以用在任何地方,而=只能用在优先级高的地方,比如说表达式中或子表达式。
The operator <- can be used anywhere, whereas the operator = is only allowed at the
top level (e.g., in the complete expression typed at the command prompt) or as one
of the subexpressions in a braced list of expressions.
我觉得<-多用于赋值,而=更多用于传值,它们之间优先级不同,赋值对象作用域不同。在使用的时候,只要注意到变量工作的空间(作用域)以及符号之间的优先级,一般是不会出错的。
补充:R语言赋值语句<-, <<-, =, %>%有什么区别?
<-和->是一对,可以向左和向右赋值;
=是单向的,作用和<-基本相同,但对函数中的变量通常使用=;
<<-这个是全局赋值,跟变量的作用域有关,一般不会用到
%>%:来自dplyr包的管道函数,其作用是将前一步的结果直接传参给下一步的函数,并作为右件表达式函数的第一个参数(或剩下唯一一个选项的设置),从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存。
anscombe_tidy <- anscombe %>%mutate(observation = seq_len(n()))
以上代码等价于
anscombe_tidy=mutate(anscombe,observation = seq_len(n()))
以上为个人经验,希望能给大家一个参考,也希望大家多多支持我们。如有错误或未考虑完全的地方,望不吝赐教。