R语言-解决处理矩阵遇到内存不足的问题

2026-04-17 19:06:14

如下：

Error : cannot allocate vector of size X Gb

类似于这种问题的可能处理办法：

1. 可以用matrix尽量不要用data frame;

2. 可以用integer matrix尽量不要用 double matrix;

3. 对于大量运算后最好加上一个gc(), 强制R语言回收内存；

4. 对于大矩阵而言用bigmemory包，可以将大矩阵放到临时文件中，不占用内存。

补充：R语言之内存管理

在处理大型数据过程中，R语言的内存管理就显得十分重要，以下介绍几种常用的处理方法。

1，设置软件的内存

memory.size(2048) #设置内存大小
memory.size(NA) #查看当前设置下最大内存
#or
memory.limit()
memory.size(F) #查看当前已使用的内存
#or
library(pryr)
mem_used()   

mem_change(x <- 1:1e6) #查看执行命令时内存的变化
memory.size(T)  #查看已分配的内存

注意刚开始时已使用内存和已分配内存是同步增加的，但是随着R中的垃圾被清理，已使用内存会减少，而已分配给R的内存一般不会改变。

2，对象的存储

R中的对象在内存中存于两种不同的地方，一种是堆内存（heap），其基本单元是“Vcells”，每个大小为8字节，新来一个对象就会申请一块空间，把值全部存在这里，和C里面的堆内存很像。第二种是地址对（cons cells），和LISP里的cons cells道理一样，主要用来存储地址信息，最小单元一般在32位系统中是28字节、64位系统中是56字节。

ls()           #查看当前对象
object.size()    查看对象所占内存
#or
library(pryr)
object_size()  #区别于前者，它进行了换算

1) 新建对象分配合适的内存

R会将新的对象存储在“连续”的内存中，如果没有这样的空间就会返回“Cannot allocate vector of size...” 的错误，有以下几种处理方法:

a) 如果有多个矩阵需要存储，确保优先存储较大的矩阵，然后依次存储较小的矩阵.

b) 预先分配合适的内存.

大家都知道R中矩阵的维度并不需要赋一个固定的值（很多语言的数组长度不能为变量），这为写程序带来了极大的方便，因此经常在循环中会出现某个矩阵越来越长的情况，实际上，矩阵每增长一次，即使赋给同名的变量，都需要新开辟一块更大的空间，假设初始矩阵为100K，第二个为101K，一直增到120K，那么，将会分别开辟100K、101K一直到120K的连续堆内存，如果一开始就开一块120K的，使之从101K逐渐增长到120K，将会大大地节约内存。cbind函数也是这个道理，所以在循环中要注意不要滥用。

c) 换到64位的计算机，这种问题较少出现.

2) 改变当前对象的存储模式

例如某个矩阵默认就是"double"的，如果这个矩阵的数值都是整数甚至0-1，完全没必要使用double来占用空间，可以将其改为整数型，可以看到该对象的大小会变为原来的一半。

storage.mode(x) #查看对象的存储模式 storage.mode(x) <- "integer" #整数型存储模式

3) 清理中间对象

rm() #删除变量的引用，经常用它来清理中间对象，其中比较重要的文件可以存在硬盘里，比如csv文件或者RSqlite等

gc() #清理内存空间

4) 清理其他对象

.ls.objects() #查看内存消耗较大的文件，并处理掉其他无关对象.代码如下:

.ls.objects <- function (pos = 1, pattern, order.by = "Size", decreasing=TRUE, head = TRUE, n = 10) {
  napply <- function(names, fn) sapply(names, function(x)
          fn(get(x, pos = pos)))
  names <- ls(pos = pos, pattern = pattern)
  obj.class <- napply(names, function(x) as.character(class(x))[1])
  obj.mode <- napply(names, mode)
  obj.type <- ifelse(is.na(obj.class), obj.mode, obj.class)
  obj.size <- napply(names, object.size) / 10^6 # megabytes
  obj.dim <- t(napply(names, function(x)
            as.numeric(dim(x))[1:2]))
  vec <- is.na(obj.dim)[, 1] & (obj.type != "function")
  obj.dim[vec, 1] <- napply(names, length)[vec]
  out <- data.frame(obj.type, obj.size, obj.dim)
  names(out) <- c("Type", "Size", "Rows", "Columns")
  out <- out[order(out[[order.by]], decreasing=decreasing), ]
  if (head)
    out <- head(out, n)
  out
}

3，修改存储地址

这部分可参考文献1。在xp系统上试了一下，得到的存储地址总是不变，不知道xp系统上有没有效...

4，选取数据集的子集

这是没有办法的办法，迟早要处理全部的数据，不过可以借此调试代码或是建模，如在合适的地方清理中间对象

5，写成脚本文件

Hadley Wickham 建议写成脚本文件，运行后再清理掉临时文件

6，使用SOAR包

它可以将特定对象存储为RData文件并无需加载到内存就能进行分析

r = data.frame(a=rnorm(10,2,.5),b=rnorm(10,3,.5))
library(SOAR)
Sys.setenv(R_LOCAL_CACHE=”testsession”)
ls()
Store(r)
ls()
mean(r[,1])
r$c = rnorm(10,4,.5)
ls()

7，一个有趣的函数

它会告诉你哪一行的代码消耗了多少时间、内存，释放多少内存，复制了多少向量.

library(devtools)
devtools::install_github("hadley/lineprof")
library(lineprof)
source("D:/test/test.R")
prof <- lineprof(test("D:/test/testcsv"))
shine(prof)

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。如有错误或未考虑完全的地方，望不吝赐教。

R语言ggplot2之图例的设置

引言图例的设置包括移除图例.改变图例的位置.改变标签的顺序.改变图例的标题等. 移除图例有时候你想移除图例,使用 guides(). library(ggplot2) p <- ggplot(PlantGrowth, aes(x=group, y=weight, fill=group)) + geom_boxplot() p + guides(fill=FALSE) 改变图例的位置我们可以用theme(legend.position=-)将图例移到图表的上方.下方.左边和右边. p <-
教你利用R语言测试电脑的性能

利用R语言测试电脑的性能如何同事新配了一个电脑,想用R语言编写一个程序,看一下电脑性能如何,让我写个代码测试一下. 我能怎么样,我也不懂如何测试电脑啊,那就计算一下矩阵的运算吧.因为我理解的电脑运行性能就是矩阵计算了. 编写代码 rm(list=ls()) set.seed(123) # 设置矩阵的行数 n = 10000 # 生成一个矩阵 value = rnorm(n*n, 10,3) mat = matrix(value,n,n) # 测试电脑性能 system.time({ # 矩阵求
R语言:数据筛选match的使用详解

数据筛选是在分析中最常用的步骤,如微生物组分析中,你的OTU表.实验设计.物种注释之间都要不断筛选,来进行数据对齐,或局部分析. 今天来详解一下此函数的用法. match match:匹配两个向量,返回x中存在的返回索引或TRUE.FALSE match函数使用格式有如下两种: 第一种方便设置参数,返回x中元素在table中的位置 match(x, table, nomatch = NA_integer_, incomparables = NULL) 第二种简洁,返回x中每个元素在table中是
R语言 install.packages 无法读取索引的解决方案

问题描述在公司的Centos服务器上安装R的包,总是安装不成功,然后有如下提醒: Warning: 无法在貯藏處https://mirrors.ustc.edu.cn/CRAN/src/contrib中读写索引 Warning message: package 'DBI' is not available (for R version 3.2.2) 问题修复 [更好的方案请直接看最后边PS] 执行下边这条命令,随便选几个源. setRepositories(addURLs = c(CRANxt
R语言查找满足条件的数并获取索引的操作

1.在R语言中,如何找到满足条件的数呢? 例如给定一个向量c2,要求找到数值大于0的数: > c2 [1] 0.00 0.00 0.00 0.00 0.00 0.00 0.06 0.09 0.20 0.09 0.08 0.14 0.14 0.23 [15] 0.08 0.06 0.12 0.20 0.14 0.11 0.20 0.14 0.17 0.15 0.18 0.15 0.20 0.12 [29] 0.23 0.08 0.12 0.08 0.23 0.12 0.08 0.17 0.18 0
R语言数据框中的负索引介绍

以R语言自带的mtcars数据框为例: 这是原始的mtcars数据: 这里只列出了前面几行数据. 然后负索引mtcars[,-2:-3],得到的结果删除了第二列和第三列数据所以R语言数据框中的负索引是指删除数据框中对应的列(或者行) ps:这和Python里面的规则好像不太一样,Python里的负索引好像是指倒数第几列(或者第几行),这里这两个软件区别还挺大的~~写个笔记提醒一下自己~ 补充:R语言中的负整数索引看代码吧~ > x<-matrix(c(1,2,3,4,5,6,7,8,9)
R语言中文本文件分割符号 sep的用法

一般情况下: csv 文件 sep = "," # 以逗号分割 txt 文件 sep = "\t" #以制表符分割其他文件 sep = " " #以空格分割具体情况,具体调整 sep= 文件中的字段分离符,用于文件数据文本的读取和保存过程中指定分割符号. 补充:用R语言把超大文本文件拆分成几个小文本文件近一段时间一直在研究一些医院的数据. 前两天遇到一个尴尬:想打开一个仅有3G左右的文本文件(有时候必须要打开,直接传到数据库满足不了需求),
R语言-解决处理矩阵遇到内存不足的问题

如下: Error : cannot allocate vector of size X Gb 类似于这种问题的可能处理办法: 1. 可以用matrix尽量不要用data frame; 2. 可以用integer matrix尽量不要用 double matrix; 3. 对于大量运算后最好加上一个gc(), 强制R语言回收内存: 4. 对于大矩阵而言用bigmemory包,可以将大矩阵放到临时文件中,不占用内存. 补充:R语言之内存管理在处理大型数据过程中,R语言的内存管理就显得十分重要,以
R语言中向量和矩阵简单运算的实现

一.向量运算向量是有相同基本类型的元素序列,一维数组,定义向量的最常用办法是使用函数c(),它把若干个数值或字符串组合为一个向量. 1.R语言向量的产生方法 > x <- c(1,2,3) > x [1] 1 2 3 2.向量加减乘除都是对其对应元素进行的,例如下面 > x <- c(1,2,3) > y <- x*2 > y [1] 2 4 6 (注:向量的整数除法是%/%,取余是%%.) 3.向量的内积,有两种方法. 第一种方法:%*% > x
R语言实现导出矩阵

程序实在是调不出来了,我决定破釜沉舟,直接把所有表格都打印出来,看看数据到底哪儿有问题. 然后就开始了闹心的矩阵导出... 首先,百度了一下,数据导出的代码为: write.table (x, file ="", sep ="", row.names =TRUE, col.names =TRUE, quote =TRUE) 其中: x:需要导出的数据 file:导出的文件路径 sep:分隔符,默认为空格(" "),也就是以空格为分割列 row.n
R语言解决安装ggplot2报错的问题

如下所示: install.packages('xxx',repos='http://cran.us.r-project.org') xxx 改为 ggplot2 补充:R包安装时,出现的错误解决合集如下所示: 1.library(devtools) #error:Error in get(genname, envir = envir) : object 'testthat_print' not found #解决 options("repos" = c(CRAN="htt
R语言解决无法打开链结的问题

近期,在项目中遇到一个棘手的问题. R脚本在centos服务器上通过"R --no-save filename.R"的方式运行R脚本可以成功,分析结果也可以存入MySQL,该种方式适合算法工程师测试脚本使用. 但是,同样的脚本,在Java后台调用时却失败了. 为了定位问题位置,在脚本内插入很多打印语句,锁定了问题出现在利用RMySQL包将分析结果存入数据库部分,由于Java调用R脚本时R报错信息无法获取,因此又在R脚本中抓取了try函数的执行结果,并存储于自建的R运行日志中. 查看日志
C语言解决螺旋矩阵算法问题的代码示例

赶集网校招就采用了螺旋输出矩阵作为程序题,要求将矩阵螺旋输出如: 图中6*6矩阵线条所示为输出顺序,如果输出正确的话应该输出1~36有序数字. 我想的是这么做的: #include <stdio.h> //#define LEN 1 //#define LEN 2 //#define LEN 3 #define LEN 4 void printClock(int a[][LEN]){//输出函数 int t; int i = 0, m = 0; int j = LEN, n = LEN; w
解决R语言数据不平衡的问题

R语言解决数据不平衡问题一.项目环境开发工具:RStudio R:3.5.2 相关包:dplyr.ROSE.DMwR 二.什么是数据不平衡?为什么要处理数据不平衡? 首先我们要知道的第一个问题就是"什么是数据不平衡",从字面意思上进行解释就是数据分布不均匀.在我们做有监督学习的时候,数据中有一个类的比例远大于其他类,或者有一个类的比值远小于其他类时,我们就可以认为这个数据存在数据不平衡问题. 那么这样的一个问题会对我们后续的分析工作带来怎样的影响呢?我举个简单的例子,或许大家就明白
R语言矩阵知识点总结及实例分析

矩阵是其中元素以二维矩形布局布置的R对象. 它们包含相同原子类型的元素. 虽然我们可以创建一个只包含字符或只包含逻辑值的矩阵,但它们没有太多用处. 我们使用包含数字元素的矩阵用于数学计算. 使用matrix()函数创建一个矩阵. 语法在R语言中创建矩阵的基本语法是 matrix(data, nrow, ncol, byrow, dimnames) 以下是所使用的参数的说明数据是成为矩阵的数据元素的输入向量. nrow是要创建的行数. ncol是要创建的列数. byrow是一个逻辑线索. 如果
R语言绘制Bubble Matrix气泡矩阵图

目录 Step1.绘图数据的准备 Step2.绘图数据的读取 Step3.绘图所需package的安装.调用 Step4.绘图 Step5.美化又是一个好久不见,朋友们你们最近还好吗!最近小仙同学刚经历了人生中的一个重要的里程碑——延毕.在预料之中.又如期而至的两个字,小仙心里也是很复杂,可终究跟“毕业”二字沾了边,就当它是好事啦! 今天要给大家介绍的是气泡矩阵图,要模仿的图形如下.小仙同学一直有一个困惑:什么样的数据应该画什么类型的图,才能精确地展示数据表达出自己的意思?对于气泡矩阵图,小仙
R语言常见面试题整理

尊敬的读者,这些R语言面试题是专门设计的,以便您应对在R语言相关面试中可能会被问到的问题. 根据我的经验,良好的面试官几乎不打算在你的面试中问任何特定的问题,通常都是以如下的问题为开端进一步展开后继的问题. 什么是R语言编程? R语言是一种用于统计分析和为此目的创建图形的编程语言.不是数据类型,它具有用于计算的数据对象.它用于数据挖掘,回归分析,概率估计等领域,使用其中可用的许多软件包. R语言中的不同数据对象是什么? 它们是R语言中的6个数据对象.它们是向量,列表,数组,矩阵,数据框和表. 什