R语言通过parallel包实现多线程运行方式

2025-02-22 22:30:36

总的来说，R的运算速度不算快，不过类似并行运算之类的改进可以提高运算的性能。下面非常简要地介绍如何利用R语言进行并行运算

library(parallel)
cl.cores <- detectCores()
cl <- makeCluster(cl.cores)

detectCores( )检查当前电脑可用核数。

makeCluster(cl.cores)使用刚才检测的核并行运算。R-Doc里这样描述makeCluster函数：Creates a set of copies of R running in parallel and communicating over sockets. 即同时创建数个R进行并行运算。

在该函数执行后就已经开始并行运算了，电脑可能会变卡一点。尤其在执行par开头的函数时。

在并行运算环境下，常用的一些计算方法如下：

1. clusterEvalQ(cl,expr)函数利用创建的cl执行expr

这里利用刚才创建的cl核并行运算expr。expr是执行命令的语句，不过如果命令太长的话，一般写到文件里比较好。比如把想执行的命令放在Rcode.r里：

clusterEvalQ(cl,source(file="Rcode.r"))

2.par开头的apply函数族

这族函数和apply的用法基本一样，不过要多加一个参数cl。一般如果cl创建如上面cl <- makeCluster(cl.cores)的话，这个参数可以直接用作parApply(cl=cl,…)。

当然Apply也可以是Sapply,Lapply等等。注意par后面的第一个字母是要大写的，而一般的apply函数族第一个字母不大写。另外要注意，即使构建了并行运算的核，不使用parApply()函数，而使用apply()函数的话，则仍然没有实现并行运算。

换句话说，makeCluster只是创建了待用的核，而不是并行运算的环境。

最后，终止并行运算只需要一行命令

stopCluster(cl)

案例1

不使用并行计算，直接使用lapply（隐式循环函数，它实际就是对不同的数据应用了相同的函数）：

fun <- function(x){
return (x+1);
}
system.time({
res <- lapply(1:5000000, fun);
});
user  system elapsed
21.42    1.74   25.70

案例2

使用parallel包来加速

library(parallel)
#打开四核，具体核数根据机器的核数决定
cl <- makeCluster(getOption("cl.cores", 4));
system.time({
res <- parLapply(cl, 1:5000000,  fun)
});
user system elapsed
6.54 0.34 19.95
#关闭并行计算
stopCluster(cl);

看看单核机器跑出来的结果：

user  system elapsed
29.30    9.23   97.22

所以，并非核数越多越好，看机器配置。

这个函数有两点要注意：

首先要先用detectCores函数确定系统核心数目，对于Window系统下的Intel I5或I7 处理器，一般使用detectCores(logical = F)来获得实际的物理核心数量。

由于这个函数使用的是调用Rscript的方式，这个例子里，对象被复制了三份，因此内存会吃的很厉害，在大数据条件就要小心使用。

案例3

在Linux下使用mclapply函数的效果如下：

mc <- getOption("mc.cores", 3)
system.time({
res <- mclapply(1:5000000, fun, mc.cores = mc);
});
user system elapsed
6.657 0.500 7.181
 stopCluster(cl);

补充：R语言如何并行处理[parallel package][向量化操作并行优化]

使用数据，长下面这样：

方法：

使用parallel包，并行向量化处理，进一步提升原先向量化处理速度。

原始代码：

start <- Sys.time()
experiment_step1 <- apply(dtc_small_modify, 1, decompose)
end <- Sys.time()
print(end-start)

原始运行时间：3.083114 分

使用parallel包后

library(parallel) #并行处理包
cl.cores <- detectCores(logical = F) #计算电脑核心数
cl <- makeCluster(cl.cores) # 初始化要使用的核心数
start <- Sys.time()
results <- parApply(cl=cl, dtc_small_modify, 1, decompose) # apply的并行版本
stopCluster(cl) # 关闭并行模式
end <- Sys.time()
print(end-start)

并行后

运行时间：55.5877 秒，相较原先，速度提升了将近四倍！

Tips：上述是对向量化（Vectorization）apply类的并行处理。对于apply的并行处理，必须使用par开头的对应apply.

列表如下：

parLapply(cl = NULL, X, fun, …, chunk.size = NULL)
parSapply(cl = NULL, X, FUN, …, simplify = TRUE, USE.NAMES = TRUE, chunk.size = NULL)
parApply(cl = NULL, X, MARGIN, FUN, …, chunk.size = NULL)
parRapply(cl = NULL, x, FUN, …, chunk.size = NULL)
parCapply(cl = NULL, x, FUN, …, chunk.size = NULL)
parLapplyLB(cl = NULL, X, fun, …, chunk.size = NULL)
parSapplyLB(cl = NULL, X, FUN, …, simplify = TRUE, USE.NAMES = TRUE, chunk.size = NULL)

使用apply类向量化操作后，常常产生大规模列表，可能需要将列表转成一个完整的大数据框。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。如有错误或未考虑完全的地方，望不吝赐教。

R语言-summary()函数的用法解读

summary():获取描述性统计量,可以提供最小值.最大值.四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计等. 结果解读如下: 1. 调用:Call lm(formula = DstValue ~ Month + RecentVal1 + RecentVal4 + RecentVal6 + RecentVal8 + RecentVal12, data = trainData) 当创建模型时,以上代码表明lm是如何被调用的. 2. 残差统计量:Residuals Min 1Q M
R语言-有负下标里才能有零介绍

1.只有负下标里才能有零先看一个例子 >a<-c(1,2,3,4) >a[-1:1] > a[-1:1] Error in a[-1:1] : 只有负下标里才能有零 (1)只有负下标里才能有零,在这里的意思为: a[-1:0] 可行 a[0:4]也可行 a[-1:1]不可行也就是说要么是负索引到0,或者0到正索引,但不能同时出现正负索引. (2)a[0]结果为numberic(0),结果没有意义,如 > a[0]+10.9 numeric(0) > a[1]+10.
R语言多线程运算操作(解决R循环慢的问题)

已经大半年没有更新博客了..最近都跑去写分析报告半年没有R 这次记录下关于R循环(百万级以上)死慢死慢的问题,这个问题去年就碰到过,当时也尝试过多线程,but failed......昨天试了下,终于跑通了,而且过程还挺顺利 step1 先查下自己电脑几核的,n核貌似应该选跑n个线程,线程不是越多越好,线程个数和任务运行时间是条开口向下的抛物线,最高点预计在电脑的核数上. detectCores( )检查当前电脑可用核数我的是4所以step2选的是4 library(parallel) cl.
R语言向量下标操作

向量下标即元素在向量中的位置,在实践中我们可以利用下标(元素的位置)来找出自己想要的数. 利用runif函数生成包含10个正整数的向量x. options(digits = 1) set.seed(1234) x <- runif(10,min = 1,max = 20) x [1] 3 13 13 13 17 13 1 5 14 11 正整数下标我们可以输入正整数作为下标来找出对应位置的元素. 在[]内输入下标. #向量x的第一位置的元素 x[1] [1] 3 #向量x的第2位置的元素 x[
基于R语言赋值符号的区别说明

R语言赋值可以用=或<-,一般都建议使用<-,那你知道这两个之间的区间吗?那你有没有见过'<-'和'='这种赋值方法吗?今天就来和大家聊聊这基本的赋值符号都有哪些区别. 首先我们来看看符号的优先级,和java,c这些编程语言的优先级类似.下面这些都取自R帮助文档,输入?Syntax即可查看,它是根据优先级从高到低排列的. :: ::: access variables in a namespace $ @ component / slot extraction [ [[ indexing
在R语言中实现Logistic逻辑回归的操作

逻辑回归是拟合回归曲线的方法,当y是分类变量时,y = f(x).典型的使用这种模式被预测Ÿ给定一组预测的X.预测因子可以是连续的,分类的或两者的混合. R中的逻辑回归实现 R可以很容易地拟合逻辑回归模型.要调用的函数是glm(),拟合过程与线性回归中使用的过程没有太大差别.在这篇文章中,我将拟合一个二元逻辑回归模型并解释每一步. 数据集我们将研究泰坦尼克号数据集.这个数据集有不同版本可以在线免费获得,但我建议使用Kaggle提供的数据集. 目标是预测生存(如果乘客幸存,则为1,否则为0)基于
R语言中c()函数与paste()函数的区别说明

c()函数:将括号中的元素连接起来,并不创建向量 paste()函数:连接括号中的元素例如 c(1, 2:4),结果为1 2 3 4 paste(1, 2:4),结果为"1 2" "1 3" "1 4" c(2, "and"),结果为"2" "and" paste(2, "and"),结果为"2 and" 补充:R语言中paste函数的参数sep
R语言中cut()函数的用法说明

R语言cut()函数使用 cut()切割将x的范围划分为时间间隔,并根据其所处的时间间隔对x中的值进行编码. 参数:breaks:两个或更多个唯一切割点或单个数字(大于或等于2)的数字向量,给出x被切割的间隔的个数. breaks采用fivenum():返回五个数据:最小值.下四分位数.中位数.上四分位数.最大值. labels为区间数,打标签 ordered_result 逻辑结果应该是一个有序的因素吗? 先用fivenum求出5个数,再用labels为每两个数之间,贴标签,采用(]的区间,
R语言通过parallel包实现多线程运行方式

总的来说,R的运算速度不算快,不过类似并行运算之类的改进可以提高运算的性能.下面非常简要地介绍如何利用R语言进行并行运算 library(parallel) cl.cores <- detectCores() cl <- makeCluster(cl.cores) detectCores( )检查当前电脑可用核数. makeCluster(cl.cores)使用刚才检测的核并行运算.R-Doc里这样描述makeCluster函数:Creates a set of copies of R run
如何改变R语言默认存储包的路径

怎么更改R中包的存储路径呢? 方法一可以在R里面用如下命令 .libPaths("C:/Program Files/R/R-3.3.1/library") 方法二在安装某一个包得时候用如下命令 install.packages("thepackage",lib="/path/to/directory/with/libraries") 补充:如何永久改变R中 .libPaths()?R语言修改 libPath包的储存路径写在前面我们有时候新
R语言利用caret包比较ROC曲线的操作

说明我们之前探讨了多种算法,每种算法都有优缺点,因而当我们针对具体问题去判断选择那种算法时,必须对不同的预测模型进行重做评估. 为了简化这个过程,我们使用caret包来生成并比较不同的模型与性能. 操作加载对应的包与将训练控制算法设置为10折交叉验证,重复次数为3: library(ROCR) library(e1071) library("pROC") library(caret) library("pROC") control = trainControl(
详解R语言图像处理EBImage包

目录什么是EBImage 1. 图像读取与保存 2.色彩管理 3.图像处理 4.空间变换 5.形态运算 6.图像分割本文摘自<Keras深度学习:入门.实战及进阶>第四章部分章节. 什么是EBImage EBImage是R的一个扩展包,提供了用于读取.写入.处理和分析图像的通用功能,非常容易上手.EBImage包在Bioconductor中,通过以下命令进行安装. install.packages("BiocManager") BiocManager::install(
R语言ggplot2拼图包patchwork安装使用

目录引言安装例子高级特性引言 patchwork是基于ggplot2的拼图包,因为ggplot2本身没有强大的拼图语法,而一般使用的gridExtra与cowplot的拼ggplot2图形都存在不少问题. 我关注这个包蛮久了,现在Github上的Star数已经远超大部分的R包,但似乎还没有发布到CRAN.我的工作看似跟作图相关,写的博文大多数也如此,但实际对图形的掌控力并不咋的,所以还是要多多学习. 下面进入正题,掌握好ggplot2与patchwork的基本用法,一般的图形都可以搞定
R语言学习VennDiagram包绘制韦恩图示例

目录引言一需要安装和导入的包二使用函数及参数三知道各个数据集的个数以及重叠(交叉)的个数 2.1 两个已知数据集的韦恩图 2.2 三个已知数据集的韦恩图四根据数据集合绘制韦恩图 4.1 四个数据集合 4.2 五个数据集合引言本版块会持续分享一些常用的结果展示的图形. 在得到数据之后,我们经常会用到维恩图来展示各个数据集之间的重叠关系.本文简单的介绍R语言中的VennDiagram包绘制数据集的维恩图. 一需要安装和导入的包 install.packages("VennDi
R语言使用cgdsr包获取TCGA数据示例详解

目录 TCGA数据源 TCGA数据库探索工具查看任意数据集的样本列表方式选定数据形式及样本列表后获取感兴趣基因的信息,下载mRNA数据选定样本列表获取临床信息综合性获取下载mRNA数据获取病例列表的临床数据从cBioPortal下载点突变信息从cBioPortal下载拷贝数变异数据把拷贝数及点突变信息结合画热图 TCGA数据源众所周知,TCGA数据库是目前最综合全面的癌症病人相关组学数据库,包括的测序数据有: DNA Sequencing miRNA Sequencing P
R语言数据可视化包ggplot2画图之散点图的基本画法

目录前言下面以一个简单的例子引入: 首先介绍第一类常用的图像类型:散点图给原始数据加上分类标签: 按z列分类以不同的颜色在图中画出散点图: 按z列分类以不同的形状在图中画出散点图: 多面化(将ABC三类分开展示): 自定义颜色: 添加拟合曲线: 更换主题 : 总结前言 ggplot2的功能很强大,并因为其出色的画图能力而闻名,下面来介绍一下它的基本画图功能,本期介绍散点图的基本画法. 在ggplot2里,所有图片由6个基本要素组成: 1. 数据(Data) 2. 层次(Layers),包
R语言之xlsx包读写Excel数据的操作

感谢Adrian A. Drǎgulescu发布的xlsx包 xlsx包提供了必要的工具来与Excel 2007进行交互.用户可以阅读和编写xlsx,并可以通过设置数据格式.字体.颜色和边框来控制电子表格的外观.设置打印区域,缩放控制,创建分割和冻结面板,添加页眉和页脚.包使用Apache POI项目中的java库.本篇主要分享利用xlsx工具包在读写xlsx过程中所碰到的问题及解决办法. 工具准备强烈建议大家使用RStudio这个IDE,它是以今为止对R语言最友好的一个IDE之一,而且使用很
R语言绘制空间热力图实例讲解

先上图 R语言的REmap包拥有非常强大的空间热力图以及空间迁移图功能,里面内置了国内外诸多城市坐标数据,使用起来方便快捷. 开始首先安装相关包 install_packages("devtools") install_packages("REmap") library(devtools) library(REmap) 我们来试试其强大的城市坐标获取功能 city<- c("beijing","上海") get_geo_