R语言-实现list的嵌套与提取嵌套中的值

2025-02-18 19:15:08

R的数据结构有很多种，常用的包括向量vector，矩阵matrix，数组array，列表list和dataframe数据框。

前三个都有其特定的性质和结构

今天要介绍的是list，它非常灵活好用~因为可以存放不同数据类型

之前做assignment的时候还没有发现list的美妙，但现在写毕业论文数据量开始变大，同时通过调用Rpackage常常产生各种数据类型，渐渐发觉list真的很好用！

因为使用了for循环，还会产生层层嵌套的超大list，这时候，如何定义这个嵌套的list，如何取出里面的值就变得很重要。

具体的逻辑关系其实很简单，只要头脑清醒不把自己绕晕，无论多少层轻松搞定！

先拿两层的为例好了：

题目：

从同一个函数随机生成20个data sets，每个data set都用K-means进行分类，K从2~10都遍历一遍。结果保存在一个list里。

第一步：

生成data set的函数已经给出了。20个数据就是run20次~因为是随机生成的，最后得到的每个data set都不相同。然后把这20个数据集都存在一个list里~

art2 <- function(){
  x1 <- rnorm(20)
  y1 <- rnorm(20)
  x2 <- rnorm(20,mean=10)
  y2 <- rnorm(20)
  x3 <- runif(100,-20,30)
  y3 <- runif(100,20,40)
  clusterdata2 <- cbind(c(x1,x2,x3),c(y1,y2,y3))
  cvec <- c(rep(1,20),rep(2,20),rep(3,100))
  out <- list(data=clusterdata2,cvec=cvec)
  out
}
datasets<-list()
for (i in 1:20){
  datasets[[i]]<- art2()
}

为什么我的datasets要包两层，是[[i]]? 其实这里就有list的嵌套了。看我在生成的函数里已经有一个list，里面包含两个元素，一个是$data：生成的原始数据；另一个是$cvec：原始数据对应的实际分类。所以我想要个大的list把这20个list都包含在内，就得来个嵌套~两个框框——[[i]]就是两层！（我刚刚突然想到[[[i]]]会不会是三层啊？。。我没试过也，因为每个循环都是新增一层list，不会直接增两层，不然有层为空就会报错，哎呦我表述好难，先继续往下吧~~

p.s. 如果想要提取第5次生成的结果，就datasets[[5]]，当然这里面还包含两个元素：原始数据数据和实际分类。如果想提取里面的原始数据数据，就datasets[[5]]$data，想提取里面的实际分类，则是datasets[[5]]$cvec。想提取全部20次的结果：直接datasets。如果！想要提取20次结果里的原始数据，就没那么直接了。得用for循环从1~20来一个datasets[[i]]$dat逐一取出来。这个应该很好理解，因为小list里是包含两种元素，外面嵌套list的才是重复20次。

第二步：

然后就是对这个大的datasets运行K-means，K=2~10。这里有两个循环，一个是我首先要把datasets从1~20走一遍，然后里面每个data set我都要从K=2~10计算K-means的结果。for循环很好写，具体的框架大致就是这样：”???“ 的地方是需要思考滴

for (k in 2:10){
  for (i in 1:20){
    ???<- kmeans(datasets[[i]]$data,k,nstart=50)
    ???
  }
}

K-means的语句里同时包含了i和k，所以这个结果会是一个嵌套的list。照我这样写for循环，里面那层就是i=1~20，外面那层是k=2~10。所以是当k=2时，把20个data sets循环一遍，然后k=3，再循环……直到k=10。所以我们要先保存固定k时的i=1~20的run出来的结果，第一个"???" 就得包括i，并且跟k无关。而且因为kmeans的结果返回的个list，里面包含了各种元素：$cluster, $size,等等。所以这跟上面datasets的保存一样，得是[[i]]，两层！

第一个"???"已经解决了，假设是ks[[i]], 保存了当k固定时循环i=1~20的结果。现在我们要循环k=2~10，等于在列表ks的外面再嵌套一个list，是关于k循环的，跟i已经没什么关系了。所以下一个"???" 就得是kmean[[k]]<-ks。

结果就是这样的~

kmean <- list()
ks <- list()
for (k in 2:10){
  for (i in 1:20){
    ks[[i]] <- kmeans(datasets[[i]]$data,k,nstart=50)
    kmean[[k]]<-ks
  }
}

现在讲讲怎么提取里面的数值。kmean是一个三层的list。最外面那层是跟k有关的，中间那层是跟i有关，里面那层是K-means的output作为一个list。

所以kmean[[k]], k=2~10, 是当k=k时20次K-means的结果。

如果想取k=2，第5个data sets的K-means结果，就是kmean[[2]][[5]]，如果想取k=4，第1个data sets的K-means得到的分类结果cluster：kmean[[4]][[1]]$cluster。

Done！这是我个人在实际操作过程中的一个总结，所以如果有什么问题欢迎一起来讨论~

Further studying——

在factorial experiment design里我们经常会考虑多个factors因子，每个因子考虑几个levels。算了我直接拿我的例子来讲好了。。。在我最近做的事情里，要生成像开头一样的分类数据generate random clusters。

因为是因子实验设计，所以我考虑了三个因子：(1) the number of clusters 每个data中有几个群组，像开头的例子就有3个，这里我定的level是2，3，5; (2) the number of points in each cluster每群组里有多少点，定的level是25，100，225； and (3) the degree of separation群组和群组之间相隔的远还是近，函数里面有个sepVal可以定义，我定的是0.01和0.021; 最后是重复2遍。把所有结果存到一个list里

感觉讲得不太清楚T T。。看代码吧！我想表达的意思就是无论考虑多少个因子，list会新增多少层，只要按照上面的方法一层层叠加就好了！重点是搞清楚每次层代表的含义，还有明白怎么样取出想要的值~

cluster<-c(2,3,5)
point<-c(25,100,225)
sepval<-c(0.01,0.21)
repl<-2

#Eq=1：the number of points in each cluster is the same.

t<-list()
gen<-list()
Eq1<-list()
for (i in 1:3){
  for (j in 1:3){
    for (k in 1:2){
      t[[k]] <- genRandomClust(numClust=cluster[i], sepVal=sepval[k], numNonNoisy=2,
                               numNoisy=0, numOutlier=0, numReplicate=repl, fileName="Eq1",
                               clustszind=1,
                               clustSizeEq=point[j],
                               outputDatFlag=F,
                               outputLogFlag=F,
                               outputEmpirical=F,
                               outputInfo=F)
      gen[[j]]<-t
      Eq1[[i]]<-gen
    }
  }
}

#Eq1[[i]][[j]][[k]]
#Eq1[[i]][[j]][[k]]$datList[[1]]:rep1
#Eq1[[i]][[j]][[k]]$datList[[2]]:rep2

补充：如何从嵌套很多层的列表中直接取出所有数值

给定列表

s = [[[[[[1, 1]], [[9, 1]]], [[5, 1]]], [[[3, 1]], [[7, 1]]]], [[[[2, 1]], [[6, 1]]], [[[4, 1]], [[8, 1]]]]]
s[0] 是 [[[[[1, 1]], [[9, 1]]], [[5, 1]]], [[[3, 1]], [[7, 1]]]]
s[1] 是 [[[[2, 1]], [[6, 1]]], [[[4, 1]], [[8, 1]]]]

每一个外层列表都包含2个子列表不停往下嵌套，并且s[0] 比s[1] 多嵌套一层

解决方案

方法1

转字符串之后使用replace替换掉不需要的值，例如

b = str(s).replace('[', '').replace(']', '').replace(' ', '').split(',')
for m,n in enumerate(b):
    if m%2 == 0:
        result.append(int(n))

这里根据需求删掉了每一个最里层列表的第二维的值

方法2

优美一点的解法是用递归去取值

def flat(nums):
    res = []
    for i in nums:
        if isinstance(i, list):
            res.extend(flat(i))
        else:
            res.append(i)
    return res
result = flat(s)

结果：

[1, 1, 9, 1, 5, 1, 3, 1, 7, 1, 2, 1, 6, 1, 4, 1, 8, 1]

去掉多余的1之后和下面的结果一致

结果：

result

Out[157]: [1, 9, 5, 3, 7, 2, 6, 4, 8]

tips

这个序列来源是一道算法题，要求是找到一个1到n正整数序列，使得任意一个中间的数乘以二不能等于两边各自任取一个数之和（即 aj * 2 != ai + ak, 其中 i<j<k ,i,j,k之间的差值不定），有兴趣的小伙伴可以做一下，希望能给大家一个参考，也希望大家多多支持我们。如有错误或未考虑完全的地方，望不吝赐教。

R语言-如何将list转换为向量

从excel中直接读取的数据为list,如下转换为向量 as.vector(unlist(x)) 补充:R语言基本运算,向量,矩阵,list,数组 1. 基本运算 1.1 加.减.乘.除赋值可以使用a=数值,亦可以用a<-数值 1.2 余数.整除 1.3 绝对值: abs() .判断正负:sign() .幂.指数:^ .平方根:sqrt() 1.4 以二为底的对数: log2() .以十为底的对数:log10() .自定义底的对数:log(c,base=) .自然常数e的对数:log(a,ba
R语言-如何切换科学计数法和更换小数点位数

看代码吧~ options(scipen = 100) # 小数点后100位不使用科学计数法 options(digits = 3) # 保留小数点后三位补充:R语言将数据导出到csv时出现科学计数表示 R语言导出数据时是默认科学计数表示的,但是对于一些数字,其并没有数字的意思,只是一串ID,也会自动变成科学计数导致数据错误,处理方法有: 1.formatC函数用format=参数指定C格式类型,如"d"(整数),"f"'(定点实数),"e"
R语言ggplot2包之坐标轴详解

引言我们还可以对图形中的坐标轴进行处理,包括x.y轴对换.设定坐标轴范围.刻度线修改与去除等等.要想对图形玩得转,坐标轴处理精通不可或缺. 坐标轴对换我们使用coord_flip()函数来对换坐标轴. library(ggplot2) library(gcookbook) ggplot(PlantGrowth, aes(x=group, y=weight)) + geom_boxplot() ggplot(PlantGrowth, aes(x=group, y=weight)) + geom
R语言-t分布正态分布分位数图的实例

R是用于统计分析.绘图的语言和操作环境. R是属于GNU系统的一个自由.免费.源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具. 它是一套由数据操作.计算和图形展示功能整合而成的套件. 包括:有效的数据存储和处理功能,一套完整的数组(特别是矩阵)计算操作符,拥有完整体系的数据分析工具,为数据分析和显示提供的强大图形功能,一套(源自S语言)完善.简单.有效的编程语言(包括条件.循环.自定义函数.输入输出功能). 如何用RStudio做分位数图呢? #分位数图,画t分布密度带p值 x=se
R语言数值取消科学计数法表示的操作

我就废话不多说了,大家还是直接看代码吧~ >#取消科学计数法 >options(scipen = 200) >#scipen 表示在200个数字以内都不使用科学计数法补充:R语言去除科学计数法保留小数位 R语言去除科学计数法保留小数位 options("scipen"=100, "digits"=4) 补充:R语言科学计数法数据改变/丢失/失准,取消科学计数法的原因和解决方法问题描述如何在R中取消科学计数法 & 对R中使用科学技
R语言基本画图函数与多图多线的用法

常用统计作图函数汇总 plot() hist() 直方图 stem() 茎叶图 boxplot() 箱线图(盒形图) coplot() 协同图 qqnorm() 正态qq图 qqplot() 两总体qq图 1. 高级低级图形函数的常用选项高.低级图形函数概述高级图形函数可以迅速简便地绘制常见类型的图形,但是,某些情况下你可能希望绘制一些有特殊要求的图形.比如,你希望坐标轴按照自己的设计绘制,在已有的图上增加另一组数据,在图中加入一行文本注释,绘出多个曲线代表的数据的标签,等等. 低级图形函数
R语言中quantile()函数的用法说明

在R语言中取百分位比用quantile()函数,下面举几个简单的示例: 1.求某个百分位比 > data <- c(1,2,3,4,5,6,7,8,9,10) > quantile(data,0.5) 50% 5.5 > quantile(data,c(0.25,0.75)) 25% 75% 3.25 7.75 2.产生一个序列百分位比值 > quantile(data,seq(0.1,1,0.1)) 10% 20% 30% 40% 50% 60% 70% 80% 90% 1
Java HtmlParse提取标签中的值操作

☆代码示例: 代码块语法遵循标准markdown代码,例如: package cas; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.filters.StringFilter; import org.htmlparser.filters.TagNameFilter; import org.htmlparser.tag
.NET提取 Thread 中返回值详情

目录一..NET 2.0+ 二..NET 4.0 + 三..NET 4.5 + 以下文章来源于公众号DotNetCore实战 Igor Bendrup: 关于如何获取 Thread 中的返回值,不同的版本有不同的解决方案. 一..NET 2.0+ 你可以直接使用 Thread 对象,然后你可以使用闭包(声明变量并在 lambda 中捕获它),参考如下代码: object result = null; Thread thread = new System.Threading.Thread(()
R语言-实现list的嵌套与提取嵌套中的值

R的数据结构有很多种,常用的包括向量vector,矩阵matrix,数组array,列表list和dataframe数据框. 前三个都有其特定的性质和结构今天要介绍的是list,它非常灵活好用~因为可以存放不同数据类型之前做assignment的时候还没有发现list的美妙,但现在写毕业论文数据量开始变大,同时通过调用Rpackage常常产生各种数据类型,渐渐发觉list真的很好用! 因为使用了for循环,还会产生层层嵌套的超大list,这时候,如何定义这个嵌套的list,如何取出里面的值就
R语言中逻辑回归知识点总结

逻辑回归是回归模型,其中响应变量(因变量)具有诸如True / False或0/1的分类值. 它实际上基于将其与预测变量相关的数学方程测量二元响应的概率作为响应变量的值. 逻辑回归的一般数学方程为 y = 1/(1+e^-(a+b1x1+b2x2+b3x3+...)) 以下是所使用的参数的描述 y是响应变量. x是预测变量. a和b是作为数字常数的系数. 用于创建回归模型的函数是glm()函数. 语法逻辑回归中glm()函数的基本语法是 glm(formula,data,family) 以下是
R语言关于生存分析知识点总结

生存分析处理预测特定事件将要发生的时间. 它也被称为故障时间分析或分析死亡时间. 例如,预测患有癌症的人将存活的天数或预测机械系统将失败的时间. 命名为survival的R语言包用于进行生存分析. 此包包含函数Surv(),它将输入数据作为R语言公式,并在选择的变量中创建一个生存对象用于分析. 然后我们使用函数survfit()创建一个分析图. 安装软件包 install.packages("survival") 语法在R语言中创建生存分析的基本语法是 Surv(time,event
R语言实现岭回归的示例代码

岭参数的一般选择原则选择k(或lambda)值,使得: 各回归系数的岭估计基本稳定用最小二乘估计时符号不合理的回归系数,其岭回归的符号变得合理回归系数没有不合乎实际意义的绝对值残差平方和增大的不多用R语言进行岭回归这里使用MASS包中的longley数据集,进行岭回归分析(longley数据集中的变量具有显著的多重共线性).从而分析使用岭回归进行多重共线性的解决. 首相将longley数据集中的第一列数据命名为"y",并使用岭回归创建线性模型: 显示当y为因变量,其余各个变
R语言关于泊松回归知识点总结

泊松回归(英语:Poisson regression)包括回归模型,其中响应变量是计数而不是分数的形式. 例如,足球比赛系列中的出生次数或胜利次数. 此外,响应变量的值遵循泊松分布. 泊松回归的一般数学方程为 log(y) = a + b1x1 + b2x2 + bnxn..... 以下是所使用的参数的描述 y是响应变量. a和b是数字系数. x是预测变量. 用于创建泊松回归模型的函数是glm()函数. 语法在泊松回归中glm()函数的基本语法是 glm(formula
R语言数据可视化绘制Circular bar plot实现环形柱状图

目录 Step1. 绘图数据的准备 Step2. 绘图数据的读取 Step3.绘图所需package的调用 Step4.绘图环形柱状图排好序的环形柱状图调整颜色注意事项不知不觉,距离小仙上次发文已经过去五个多月了.R语言作图系列的更新频率跟理想中的一月一次差别有点忒大了,不得不让小仙陷入深深的反思,对于时间的规划也有了一些新的感悟.不知道大家有没有跟我一样的感受啊,举些例子:放学.下班或者放假之后先把学习任务扔在一边,心想着,我先玩会游戏,等会玩够了再做:网上看到一篇干货满满的文章,先
R语言-实现提取包含某字符串的行变量

已解决用grep函数 A=read.table("clipboard",sep="/t",header=T) A[grep(pattern="/resource/activity",A[,1]),] 补充:R语言如何截取字符串特定字符前或后的字符串如待处理字符串是: topic = "#全国累计报告72436例新冠肺炎#/#全国累计报告72436例新冠肺炎#.csv" 需要截取出:"全国累计报告72436例新冠
R语言ggplot2拼图包patchwork安装使用

目录引言安装例子高级特性引言 patchwork是基于ggplot2的拼图包,因为ggplot2本身没有强大的拼图语法,而一般使用的gridExtra与cowplot的拼ggplot2图形都存在不少问题. 我关注这个包蛮久了,现在Github上的Star数已经远超大部分的R包,但似乎还没有发布到CRAN.我的工作看似跟作图相关,写的博文大多数也如此,但实际对图形的掌控力并不咋的,所以还是要多多学习. 下面进入正题,掌握好ggplot2与patchwork的基本用法,一般的图形都可以搞定