R语言多元Logistic逻辑回归应用实例

可以使用逐步过程确定多元逻辑回归。此函数选择模型以最小化AIC。

如何进行多元逻辑回归

可以使用阶梯函数通过逐步过程确定多元逻辑回归。此函数选择模型以最小化AIC。

通常建议不要盲目地遵循逐步程序,而是要使用拟合统计(AIC,AICc,BIC)比较模型,或者根据生物学或科学上合理的可用变量建立模型。

多元相关是研究潜在自变量之间关系的一种工具。例如,如果两个独立变量彼此相关,可能在最终模型中都不需要这两个变量,但可能有理由选择一个变量而不是另一个变量。

多元相关

创建数值变量的数据框


Data.num $ Status = as.numeric(Data.num $ Status)

Data.num $ Length = as.numeric(Data.num $ Length)

Data.num $ Migr = as.numeric(Data.num $ Migr)

Data.num $ Insect = as.numeric(Data.num $ Insect)

Data.num $ Diet = as.numeric(Data.num $ Diet)

Data.num $ Broods = as.numeric(Data.num $ Broods)

Data。 num $ Wood = as.numeric(Data.num $ Wood)

Data.num $ Upland = as.numeric(Data.num $ Upland)

Data.num $ Water = as.numeric(Data.num $ Water)

Data.num $ Release = as.numeric(Data.num $ Release)

Data.num $ Indiv = as.numeric(Data.num $ Indiv)

###检查新数据框

headtail(Data.num)

1 1 1520 9600.0 1.21 1 12 2 6.0 1 0 0 1 6 29

2 1 1250 5000.0 0.56 1 0 1 6.0 1 0 0 1 10 85

3 1 870 3360.0 0.07 1 0 1 4.0 1 0 0 1 3 8

77 0 170 31.0 0.55 3 12 2 4.0 NA 1 0 0 1 2

78 0 210 36.9 2.00 2 8 2 3.7 1 0 0 1 1 2

79 0 225 106.5 1.20 2 12 2 4.8 2 0 0 0 1 2

###检查变量之间的相关性

###这里使用了Spearman相关性

多元逻辑回归的例子

在此示例中,数据包含缺失值。在R中缺失值用NA表示。SAS通常会无缝地处理缺失值。虽然这使用户更容易,但可能无法确保用户了解这些缺失值的作用。在某些情况下,R要求用户明确如何处理缺失值。处理多元回归中的缺失值的一种方法是从数据集中删除具有任何缺失值的所有观察值。这是我们在逐步过程之前要做的事情,创建一个名为Data.omit的数据框。但是,当我们创建最终模型时,我们只想排除那些在最终模型中实际包含的变量中具有缺失值的观察。为了测试最终模型的整体p值,绘制最终模型,或使用glm.compare函数,我们将创建一个名为Data.final的数据框,只排除那些观察结果。

尽管二项式和poission系列中的模型应该没问题,但是对于使用某些glm拟合的步骤过程存在一些注意事项。

用逐步回归确定模型

最终模型

summary(model.final)

Coefficients:

       Estimate Std. Error z value Pr(>|z|)  

(Intercept) -3.5496482 2.0827400 -1.704 0.088322 . 

Upland   -4.5484289 2.0712502 -2.196 0.028093 * 

Migr    -1.8184049 0.8325702 -2.184 0.028956 * 

Mass     0.0019029 0.0007048  2.700 0.006940 **

Indiv    0.0137061 0.0038703  3.541 0.000398 ***

Insect    0.2394720 0.1373456  1.744 0.081234 . 

Wood     1.8134445 1.3105911  1.384 0.166455  

伪R方

$Pseudo.R.squared.for.model.vs.null

               Pseudo.R.squared

McFadden               0.700475

Cox and Snell (ML)          0.637732

Nagelkerke (Cragg and Uhler)     0.833284

模型总体p值

在最终模型中创建包含变量的数据框,并省略NA。

偏差表分析

Analysis of Deviance Table

Model 1: Status ~ Upland + Migr + Mass + Indiv + Insect + Wood

Model 2: Status ~ 1

 Resid. Df Resid. Dev Df Deviance Pr(>Chi)  

1    63   30.392             

2    69   93.351 -6 -62.959 1.125e-11 ***

似然比检验

Likelihood ratio test

 #Df LogLik Df Chisq Pr(>Chisq)  

1  7 -15.196            

2  1 -46.675 -6 62.959 1.125e-11 ***

标准化残差图

简单的预测值图

在最终模型中创建包含变量的数据框,并在NA中省略

过度离散检验

过度离散是glm的deviance残差相对于自由度较大的情况。这些值显示在模型的摘要中。一个指导原则是,如果deviance残差与剩余自由度的比率超过1.5,则模型过度离散。过度离散表明模型不能很好地拟合数据:解释变量可能无法很好地描述因变量,或者可能无法为这些数据正确指定模型。如果存在过度离散,一种可能的解决方案是 在glm中使用quasibinomial family选项。

Null deviance: 93.351 on 69 degrees of freedom

Residual deviance: 30.392 on 63 degrees of freedom

deviance /  df.residual

[1] 0.482417

评估模型的替代方法

使用逐步程序的替代或补充是将模型与拟合统计进行比较。我的compare.glm 函数将为glm模型显示AIC,AICc,BIC和伪R平方。使用的模型应该都拟合相同的数据。也就是说,如果数据集中的不同变量包含缺失值,则应该谨慎使用。如果您对使用哪种拟合统计数据没有任何偏好,您希望在最终模型中使用较少的术语,我可能会推荐AICc或BIC。

一系列模型可以与标准的anova 功能进行比较。模型应嵌套在先前模型中或anova函数列表中的下一个模型中; 和模型应该拟合相同的数据。在比较多个回归模型时,通常放宽p值为0.10或0.15。

在以下示例中,使用通过逐步过程选择的模型。请注意,虽然模型9最小化了AIC和AICc,但模型8最小化了BIC。anova结果表明模型8不是对模型7的显着改进。这些结果支持选择模型7,8或9中的任何一个。

compareGLM(model.1, model.2, model.3, model.4, model.5, model.6,
      model.7, model.8, model.9)

$Models

 Formula                         

1 "Status ~ 1"                       

2 "Status ~ Release"                    

3 "Status ~ Release + Upland"                

4 "Status ~ Release + Upland + Migr"            

5 "Status ~ Release + Upland + Migr + Mass"        

6 "Status ~ Release + Upland + Migr + Mass + Indiv"    

7 "Status ~ Release + Upland + Migr + Mass + Indiv + Insect"

8 "Status ~ Upland + Migr + Mass + Indiv + Insect"     

9 "Status ~ Upland + Migr + Mass + Indiv + Insect + Wood" 

$Fit.criteria

 Rank Df.res  AIC AICc  BIC McFadden Cox.and.Snell Nagelkerke  p.value

1  1   66 94.34 94.53 98.75  0.0000    0.0000   0.0000    Inf

2  2   65 62.13 62.51 68.74  0.3787    0.3999   0.5401 2.538e-09

3  3   64 56.02 56.67 64.84  0.4684    0.4683   0.6325 3.232e-10

4  4   63 51.63 52.61 62.65  0.5392    0.5167   0.6979 7.363e-11

5  5   62 50.64 52.04 63.87  0.5723    0.5377   0.7263 7.672e-11

6  6   61 49.07 50.97 64.50  0.6118    0.5618   0.7588 5.434e-11

7  7   60 46.42 48.90 64.05  0.6633    0.5912   0.7985 2.177e-11

8  6   61 44.71 46.61 60.14  0.6601    0.5894   0.7961 6.885e-12

9  7   60 44.03 46.51 61.67  0.6897    0.6055   0.8178 7.148e-12

Analysis of Deviance Table

Model 1: Status ~ 1

Model 2: Status ~ Release

Model 3: Status ~ Release + Upland

Model 4: Status ~ Release + Upland + Migr

Model 5: Status ~ Release + Upland + Migr + Mass

Model 6: Status ~ Release + Upland + Migr + Mass + Indiv

Model 7: Status ~ Release + Upland + Migr + Mass + Indiv + Insect

Model 8: Status ~ Upland + Migr + Mass + Indiv + Insect

Model 9: Status ~ Upland + Migr + Mass + Indiv + Insect + Wood

 Resid. Df Resid. Dev Df Deviance Pr(>Chi)  

1    66   90.343            

2    65   56.130 1  34.213 4.94e-09 ***

3    64   48.024 1  8.106 0.004412 **

4    63   41.631 1  6.393 0.011458 * 

5    62   38.643 1  2.988 0.083872 . 

6    61   35.070 1  3.573 0.058721 . 

7    60   30.415 1  4.655 0.030970 * 

8    61   30.710 -1  -0.295 0.587066  

9    60   28.031 1  2.679 0.101686

总结

到此这篇关于R语言多元Logistic逻辑回归应用的文章就介绍到这了,更多相关R语言多元逻辑回归内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • 大数据分析R语言RStudio使用超详细教程

    RStudio是用于R编程的开源工具.如果您对使用R编程感兴趣,则值得了解RStudio的功能.它是一种灵活的工具,可帮助您创建可读的分析,并将您的代码,图像,注释和图解保持在一起. 在此大数据分析R语言RStudio使用教程文章中,我们将介绍RStudio免费版本的一些最佳功能:RStudio Desktop.我们收集了一些RStudio的重要技巧,窍门和快捷方式,可快速将您变成RStudio高级用户! 1.在窗口窗格之间快速导航 RStudio窗格可让您访问有关项目的重要信息.知道如何在窗格

  • R语言 实现输出九九乘法表

    在R语言中,使用cat()函数可以将多个变量连接起来并输出到控制台或者File文件中. 下面,以九九乘法表为例来 演示cat()函数的用法 //jiujiubiao.R ## 九九乘法表 for(i in 1:9){ for(j in 1:i){ m = j*i cat(i,'*',j,'=',m,' ') } cat('\n') } 效果如下: 图(1) 使用cat()输出九九乘法表 补充:R语言 用 sprintf 打印九九乘法表 九九乘法表 for (i in c(1:9)) { for

  • R语言作图之直方图histogram绘制过程详解

    先给大家介绍下R语言入门:直方图histogram的绘制,具体内容如下所示: 直方图和条形图最大的不同则是直方图可以用于显示出一个数据的频数,具有统计的作用,我们下面来看一一看直方图在R语言当中是如何绘制的吧! 首先创建一系列的数据: h<-c(4,6,3,46,3,5,7,8,3,4,3,4,5) 创建完之后将这个数据纳入到直方图histogram的绘制函数hist()当中,如下所示: hist(h,xlab = "number'scale",ylab="Right&

  • R语言histogram(直方图)的具体使用

    最近小仙同学很是烦恼,本以为自己已经掌握了ggplot2作图的语法,用read.csv(), ggplot()+geom_point()/boxplot()/violinplot()-就可以画遍天下图表,结果却发现到真正画图的时候,还是会出现不少的小问题. 比如小仙最近要画一个直方图,最开始用hist()函数试了一下,看了下形状, 好像因为数据取值范围跨度太大(最大值104,724,最小值30),这个图画出来有点丑,于是决定用ggplot美化一下. 调整之后好看是好看了,但是大家有没有看出什么不

  • R语言绘图如何支持中文

    不同系统的字体库目录: Linux 一般在 /usr/share/fonts 下,我们可以使用 fc-list 命令查看: # fc-list /usr/share/fonts/truetype/dejavu/DejaVuSerif-Bold.ttf: DejaVu Serif:style=Bold /usr/share/fonts/truetype/dejavu/DejaVuSansMono.ttf: DejaVu Sans Mono:style=Book /usr/share/fonts/t

  • R语言如何将大型Excel文件转为dta格式详解

    本文以2000年度我国工业企业数据库为例,该文件后缀名为xlsx,包含约16万条记录,文件有88M这么大.直接使用Excel打开都费劲:等待时间久,电脑风扇呼呼呼作响.如果尝试用Stata打开该xlsx文件,则会出现提示报错. 报错原因在于,Stata无法读取超过40M的Excel文件. 这就好比瓜迪奥拉的传控足球固然美丽,但是面对摆大巴的球队无能为力. 破大巴需要攻城锤,这把锤子的名字就是R语言.万事开头难啊,正憧憬着数据清洗和花式选取变量建模呢,可不能连数据们长啥模样都没见着啊.R语言适时挺

  • R语言 出现矩阵/缺失值的解决方案

    缺失值处理一般包括三步: 1. 识别缺失数据: 2. 检查导致数据缺失的原因: 3. 删除包含缺失值的实例或用合理的数值代替(插补)缺失值. 1.判断缺失值 函数is.na().is.nan()和is.infinite()可分别用来识别缺失值.不可能值和无穷值.每个返回结果都是 TRUE或FALSE na表示缺失值 nan表示NOT A NUMBER infinite表示+-Inf 一定要亲手试x = 0/0,以及x = 1/0 >x <- NA > is.na(x) [1] TRUE

  • 如何用R语言绘制散点图

    散点图是将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定,每个点对应一个 X 和 Y 轴点坐标. 散点图可以使用 plot() 函数来绘制,语法格式如下: plot(x, y, type="p", main, xlab, ylab, xlim, ylim, axes) x 横坐标 x 轴的数据集合 y 纵坐标 y 轴的数据集合 type:绘图的类型,p 为点.l 为直线, o 同时绘制点和线,且线穿过点. main 图表标题. xlab.

  • R语言导入导出数据的几种方法汇总

    导出: 对于某一数据集导出文件的方法 导出例子:write.csv(data_1,file = "d:/1111111111.csv") 其中data_1是你的数据集,file是你的存储路径和要存储的名字 导入: 1  使用键盘输入数据 (1) 创建一个空数据框(或矩阵),其中变量名和变量的模式需与理想中的最终数据集一致: (2)针对这个数据对象调用文本编辑器,输入你的数据,并将结果保存回此数据对象中. 在下例中,你将创建一个名为mydata的数据框,它含有三个变量:age(数值型).

  • 如何用R语言绘制饼图和条形图

    R 语言提供来大量的库来实现绘图功能. 饼图,或称饼状图,是一个划分为几个扇形的圆形统计图表,用于描述量.频率或百分比之间的相对关系. R 语言使用 pie() 函数来实现饼图,语法格式如下: pie(x, labels = names(x), edges = 200, radius = 0.8, clockwise = FALSE, init.angle = if(clockwise) 90 else 0, density = NULL, angle = 45, col = NULL, bor

  • R语言是什么 R语言简介

    R是由Ross Ihaka和Robert Gentleman在1993年开发的一种编程语言,R拥有广泛的统计和图形方法目录.它包括机器学习算法.线性回归.时间序列.统计推理等.大多数R库都是用R编写的,但是对于繁重的计算任务,最好使用C.c++和Fortran代码. R不仅在学术界很受欢迎,很多大公司也使用R编程语言,包括Uber.谷歌.Airbnb.Facebook等.用R进行数据分析需要一系列步骤:编程.转换.发现.建模和交流结果 R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统

随机推荐