使用R语言填补缺失值的方法

使用R语言填补缺失值

数据处理过程中,往往会存在缺失值,对于缺失值的处理,目前各大统计书提出的方法有剔除,用均数填补,用众数填补,采用其他自变量进行回归,推算缺失值进行填补等。在R语言中如何按要求进行填补?下面将介绍如何进行缺失值填补的各种方法

用某特定值替换缺失值

下面这段代码表示使用0填补缺失值,x是需要填补的数据框的某行或某列,如果是其他值,将0改成需要的值即可。

FillNA <- function(x){
 x[is.na(x )]<- 0;
 x
}

使用均值,众数,中位数进行填补

该过程函数是一样的,只需要将后续填补要用的值进行修正即可。

library(data.table)
library(dplyr)
library(tidyverse)

#data.table
setDT(data)
data[,names(data):=lapply(.SD,function(x){x[is.na(x)] <- getmode(x)
x})]

#dplyr
data %>%
  mutate_all(function(x){x[is.na(x)] <- getmode(x)
  x})
dplyr_if_else   <- function(x) { mutate_all(x, ~if_else(is.na(.), 0, .)) }
#tidyverse
df %>%
  select(Pclass, Sex, SibSp, Embarked) %>%
  map_dfc(~ replace_na(.x, rstatix::get_mode(.x)[1]))

到此这篇关于使用R语言填补缺失值的方法的文章就介绍到这了,更多相关R语言填补缺失值内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • R语言 出现矩阵/缺失值的解决方案

    缺失值处理一般包括三步: 1. 识别缺失数据: 2. 检查导致数据缺失的原因: 3. 删除包含缺失值的实例或用合理的数值代替(插补)缺失值. 1.判断缺失值 函数is.na().is.nan()和is.infinite()可分别用来识别缺失值.不可能值和无穷值.每个返回结果都是 TRUE或FALSE na表示缺失值 nan表示NOT A NUMBER infinite表示+-Inf 一定要亲手试x = 0/0,以及x = 1/0 >x <- NA > is.na(x) [1] TRUE

  • 使用R语言填补缺失值的方法

    使用R语言填补缺失值 数据处理过程中,往往会存在缺失值,对于缺失值的处理,目前各大统计书提出的方法有剔除,用均数填补,用众数填补,采用其他自变量进行回归,推算缺失值进行填补等.在R语言中如何按要求进行填补?下面将介绍如何进行缺失值填补的各种方法 用某特定值替换缺失值 下面这段代码表示使用0填补缺失值,x是需要填补的数据框的某行或某列,如果是其他值,将0改成需要的值即可. FillNA <- function(x){ x[is.na(x )]<- 0; x } 使用均值,众数,中位数进行填补 该

  • R语言matrix生成矩阵的方法

    主要介绍一下利用matrix函数和rep生成矩阵 在R语言中可以使用matrix()函数来创建矩阵,其语法格式如下: matrix(data=NA, nrow = 1, ncol = 1, byrow = FALSE, dimnames = NULL) 参数含义如下: data:矩阵的元素,默认为NA,即未给出元素值的话,各项为NA nrow:矩阵的行数,默认为1: ncol:矩阵的列数,默认为1: byrow:元素是否按行填充,默认按列: dimnames:以字符型向量表示的行名及列名. re

  • R语言行筛选的方法之filter函数详解

    目录 1. 数据 2. 生成ID列和类型 3. 提取effect大于0.1的行 4. 提取加性效应,且effect小于0的行 5. 根据部分行名删选 6. 固定字符特征进行行筛选 总结 下面介绍一下R语言中行筛选的方法,主要介绍filter函数 1. 数据 这里,使用asreml分析中的BLUP值为例,相关的模型为: m1 = asreml(Phen ~ G , random = ~ vm(Progeny,ainv) + vm(Dam,ainv) + vm(Progeny,dinv), work

  • R语言列筛选的方法select实例详解

    目录 前言 1. 数据描述 2. 使用R语言默认的方法:列选择 3. tidyverse的rename函数 4. tidyverse的select函数 5. select函数注意事项 5.1 绝对引用函数 5.2 放到环境变量中 6. 提取h开头的列 7. 提取因子和数字的列 总结 前言 我们知道,R语言学习,80%的时间都是在清洗数据,而选择合适的数据进行分析和处理也至关重要,如何选择合适的列进行分析,你知道几种方法? 如何优雅高效的选择合适的列,让我们一起来看一下吧. 1. 数据描述 数据来

  • R语言将变量分组的3种方法实例(含cut函数说明)

    目录 前言 方法一:直接对分组变量进行赋值 方法二:使用within函数对变量进行分组 方法三:采用cut函数 总结 前言 在数据处理的过程中,我们有时候需要将连续的数值数据转换为类别数据,比如将收入分成高.中和低三组,将学生成绩分为优.良.中.及格和不及格五组. 本来将基于R语言,采用三种方法来实现:第一种是对变量直接进行重新赋值,第二种是使用within函数对语句进行组织,第三种是cut函数. 首先我们定义一个数据框,这个数据框包括学生姓名和数学成绩两个变量. #定义数据框 mathScor

  • R语言 用均值替换、回归插补及多重插补进行插补的操作

    用均值替换.回归插补及多重插补进行插补 # 设置工作空间 # 把"数据及程序"文件夹拷贝到F盘下,再用setwd设置工作空间 setwd("E:\\R_workspace\\R语言数据分析与挖掘实战\\chp4") # 读取销售数据文件,提取标题行 inputfile <- read.csv('./data/catering_sale.csv', header = TRUE) View(inputfile) # 变换变量名 inputfile <- da

  • R语言中向量和矩阵简单运算的实现

    一.向量运算 向量是有相同基本类型的元素序列,一维数组,定义向量的最常用办法是使用函数c(),它把若干个数值或字符串组合为一个向量. 1.R语言向量的产生方法 > x <- c(1,2,3) > x [1] 1 2 3 2.向量加减乘除都是对其对应元素进行的,例如下面 > x <- c(1,2,3) > y <- x*2 > y [1] 2 4 6 (注:向量的整数除法是%/%,取余是%%.) 3.向量的内积,有两种方法. 第一种方法:%*% > x

  • R语言基本运算的示例代码

    1.基本运算 1.1 加.减.乘.除 + - * / 在赋值中可以使用=,也可以使用<-. 1.2余数.整除 %% %/% 1.3 取绝对值 abs() 判断正负号sign() 1.4幂指数 ^ 平方根sqart () 1.5 以二为底的对数:log2() 以十为底的对数:log10() 自定义底的对数:log(c,base=) 自然常数e的对数:log(a,base=exp(1)) 2.向量运算 向量是有相同基本类型的元素序列,一维数组,定义向量的最常用办法是使用函数c(),它把若干个数值或字

  • R语言归一化处理实例讲解

    归一化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内.首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快. R语言中的归一化函数:scale 数据归一化包括数据的中心化和数据的标准化. 1. 数据的中心化 所谓数据的中心化是指数据集中的各项数据减去数据集的均值. 例如有数据集1, 2, 3, 6, 3,其均值为3,那么中心化之后的数据集为1-3,2-3,3-3,6-3,3-3,即:-2,-1,0,3,0 2. 数据的标准化 所谓数据的标准化是指中心化之后

  • R语言对Excel文件操作实例

    Microsoft Excel是最广泛使用的电子表格程序,以.xls或.xlsx格式存储数据. R语言可以直接从这些文件使用一些excel特定的包. 很少这样的包是XLConnect,xlsx,gdata等.我们将使用xlsx包. R语言也可以使用这个包写入excel文件. 安装xlsx软件包 您可以在R控制台中使用以下命令来安装"xlsx"软件包. 它可能会要求安装一些额外的软件包这个软件包依赖. 按照具有所需软件包名称的同一命令安装其他软件包. install.packages(&

随机推荐