R语言逻辑回归、ROC曲线与十折交叉验证详解

自己整理编写的逻辑回归模板,作为学习笔记记录分享。数据集用的是14个自变量Xi,一个因变量Y的australian数据集。

1. 测试集和训练集3、7分组

australian <- read.csv("australian.csv",as.is = T,sep=",",header=TRUE)
#读取行数
N = length(australian$Y)
#ind=1的是0.7概率出现的行,ind=2是0.3概率出现的行
ind=sample(2,N,replace=TRUE,prob=c(0.7,0.3))
#生成训练集(这里训练集和测试集随机设置为原数据集的70%,30%)
aus_train <- australian[ind==1,]
#生成测试集
aus_test <- australian[ind==2,]

2.生成模型,结果导出

#生成logis模型,用glm函数
#用训练集数据生成logis模型,用glm函数
#family:每一种响应分布(指数分布族)允许各种关联函数将均值和线性预测器关联起来。常用的family:binomal(link='logit')--响应变量服从二项分布,连接函数为logit,即logistic回归
pre <- glm(Y ~.,family=binomial(link = "logit"),data = aus_train)
summary(pre)
#测试集的真实值
real <- aus_test$Y
#predict函数可以获得模型的预测值。这里预测所需的模型对象为pre,预测对象newdata为测试集,预测所需类型type选择response,对响应变量的区间进行调整
predict. <- predict.glm(pre,type='response',newdata=aus_test)
#按照预测值为1的概率,>0.5的返回1,其余返回0
predict =ifelse(predict.>0.5,1,0)
#数据中加入预测值一列
aus_test$predict = predict
#导出结果为csv格式
#write.csv(aus_test,"aus_test.csv")

3.模型检验

##模型检验
res <- data.frame(real,predict)
#训练数据的行数,也就是样本数量
n = nrow(aus_train)
#计算Cox-Snell拟合优度
R2 <- 1-exp((pre$deviance-pre$null.deviance)/n)
cat("Cox-Snell R2=",R2,"\n")
#计算Nagelkerke拟合优度,我们在最后输出这个拟合优度值
R2<-R2/(1-exp((-pre$null.deviance)/n))
cat("Nagelkerke R2=",R2,"\n")
##模型的其他指标
#residuals(pre) #残差
#coefficients(pre) #系数,线性模型的截距项和每个自变量的斜率,由此得出线性方程表达式。或者写为coef(pre)
#anova(pre) #方差

4.准确率和精度

true_value=aus_test[,15]
predict_value=aus_test[,16]
#计算模型精确度
error = predict_value-true_value
accuracy = (nrow(aus_test)-sum(abs(error)))/nrow(aus_test) #精确度--判断正确的数量占总数的比例
#计算Precision,Recall和F-measure
#一般来说,Precision就是检索出来的条目(比如:文档、网页等)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了
#和混淆矩阵结合,Precision计算的是所有被检索到的item(TP+FP)中,"应该被检索到的item(TP)”占的比例;Recall计算的是所有检索到的item(TP)占所有"应该被检索到的item(TP+FN)"的比例。
precision=sum(true_value & predict_value)/sum(predict_value) #真实值预测值全为1 / 预测值全为1 --- 提取出的正确信息条数/提取出的信息条数
recall=sum(predict_value & true_value)/sum(true_value) #真实值预测值全为1 / 真实值全为1 --- 提取出的正确信息条数 /样本中的信息条数
#P和R指标有时候会出现的矛盾的情况,这样就需要综合考虑他们,最常见的方法就是F-Measure(又称为F-Score)
F_measure=2*precision*recall/(precision+recall) #F-Measure是Precision和Recall加权调和平均,是一个综合评价指标
#输出以上各结果
print(accuracy)
print(precision)
print(recall)
print(F_measure)
#混淆矩阵,显示结果依次为TP、FN、FP、TN
table(true_value,predict_value) 

5.ROC曲线的几个方法

#ROC曲线
# 方法1
#install.packages("ROCR")
library(ROCR)
pred <- prediction(predict.,true_value) #预测值(0.5二分类之前的预测值)和真实值
performance(pred,'auc')@y.values #AUC值
perf <- performance(pred,'tpr','fpr')
plot(perf)
#方法2
#install.packages("pROC")
library(pROC)
modelroc <- roc(true_value,predict.)
plot(modelroc, print.auc=TRUE, auc.polygon=TRUE,legacy.axes=TRUE, grid=c(0.1, 0.2),
 grid.col=c("green", "red"), max.auc.polygon=TRUE,
 auc.polygon.col="skyblue", print.thres=TRUE) #画出ROC曲线,标出坐标,并标出AUC的值
#方法3,按ROC定义
TPR=rep(0,1000)
FPR=rep(0,1000)
p=predict.
for(i in 1:1000)
 {
 p0=i/1000;
 ypred<-1*(p>p0)
 TPR[i]=sum(ypred*true_value)/sum(true_value)
 FPR[i]=sum(ypred*(1-true_value))/sum(1-true_value)
 }
plot(FPR,TPR,type="l",col=2)
points(c(0,1),c(0,1),type="l",lty=2)

6.更换测试集和训练集的选取方式,采用十折交叉验证

australian <- read.csv("australian.csv",as.is = T,sep=",",header=TRUE)
#将australian数据分成随机十等分
#install.packages("caret")
#固定folds函数的分组
set.seed(7)
require(caret)
folds <- createFolds(y=australian$Y,k=10)
#构建for循环,得10次交叉验证的测试集精确度、训练集精确度
max=0
num=0
for(i in 1:10){

 fold_test <- australian[folds[[i]],] #取folds[[i]]作为测试集
 fold_train <- australian[-folds[[i]],] # 剩下的数据作为训练集

 print("***组号***")

 fold_pre <- glm(Y ~.,family=binomial(link='logit'),data=fold_train)
 fold_predict <- predict(fold_pre,type='response',newdata=fold_test)
 fold_predict =ifelse(fold_predict>0.5,1,0)
 fold_test$predict = fold_predict
 fold_error = fold_test[,16]-fold_test[,15]
 fold_accuracy = (nrow(fold_test)-sum(abs(fold_error)))/nrow(fold_test)
 print(i)
 print("***测试集精确度***")
 print(fold_accuracy)
 print("***训练集精确度***")
 fold_predict2 <- predict(fold_pre,type='response',newdata=fold_train)
 fold_predict2 =ifelse(fold_predict2>0.5,1,0)
 fold_train$predict = fold_predict2
 fold_error2 = fold_train[,16]-fold_train[,15]
 fold_accuracy2 = (nrow(fold_train)-sum(abs(fold_error2)))/nrow(fold_train)
 print(fold_accuracy2)

 if(fold_accuracy>max)
 {
 max=fold_accuracy
 num=i
 }

}

print(max)
print(num)

##结果可以看到,精确度accuracy最大的一次为max,取folds[[num]]作为测试集,其余作为训练集。

7.得到十折交叉验证的精确度,结果导出

#十折里测试集最大精确度的结果
testi <- australian[folds[[num]],]
traini <- australian[-folds[[num]],] # 剩下的folds作为训练集
prei <- glm(Y ~.,family=binomial(link='logit'),data=traini)
predicti <- predict.glm(prei,type='response',newdata=testi)
predicti =ifelse(predicti>0.5,1,0)
testi$predict = predicti
#write.csv(testi,"ausfold_test.csv")
errori = testi[,16]-testi[,15]
accuracyi = (nrow(testi)-sum(abs(errori)))/nrow(testi) 

#十折里训练集的精确度
predicti2 <- predict.glm(prei,type='response',newdata=traini)
predicti2 =ifelse(predicti2>0.5,1,0)
traini$predict = predicti2
errori2 = traini[,16]-traini[,15]
accuracyi2 = (nrow(traini)-sum(abs(errori2)))/nrow(traini) 

#测试集精确度、取第i组、训练集精确
accuracyi;num;accuracyi2
#write.csv(traini,"ausfold_train.csv")

总结

到此这篇关于R语言逻辑回归、ROC曲线与十折交叉验证的文章就介绍到这了,更多相关R语言逻辑回归内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • R语言多元Logistic逻辑回归应用实例

    可以使用逐步过程确定多元逻辑回归.此函数选择模型以最小化AIC. 如何进行多元逻辑回归 可以使用阶梯函数通过逐步过程确定多元逻辑回归.此函数选择模型以最小化AIC. 通常建议不要盲目地遵循逐步程序,而是要使用拟合统计(AIC,AICc,BIC)比较模型,或者根据生物学或科学上合理的可用变量建立模型. 多元相关是研究潜在自变量之间关系的一种工具.例如,如果两个独立变量彼此相关,可能在最终模型中都不需要这两个变量,但可能有理由选择一个变量而不是另一个变量. 多元相关 创建数值变量的数据框 Data.

  • R语言逻辑回归、ROC曲线与十折交叉验证详解

    自己整理编写的逻辑回归模板,作为学习笔记记录分享.数据集用的是14个自变量Xi,一个因变量Y的australian数据集. 1. 测试集和训练集3.7分组 australian <- read.csv("australian.csv",as.is = T,sep=",",header=TRUE) #读取行数 N = length(australian$Y) #ind=1的是0.7概率出现的行,ind=2是0.3概率出现的行 ind=sample(2,N,rep

  • R语言逻辑回归深入讲解

    逻辑回归 > ###############逻辑回归 > setwd("/Users/yaozhilin/Downloads/R_edu/data") > accepts<-read.csv("accepts.csv") > names(accepts) [1] "application_id" "account_number" "bad_ind" "vehicle_

  • Python/R语言分别实现斐波那契数列的示例详解

    目录 前言 1.年龄计算 1.1 图解问题 1.2 代码解决 1.3 实验小结 2.斐波那契数列 2.1 图解问题 2.2 代码实现 2.3 实验小结 总结 前言 此专栏为python与R语言对比学习的文章:以通俗易懂的小实验,带领大家深入浅出的理解两种语言的基本语法,并用以实际场景!感谢大家的关注,希望对大家有所帮助. “博观而约取,厚积而薄发!”谨以此言,望诸君共勉 本文将前两个小实验整理拼凑再了一起 :分别是“年龄计算”.“斐波那契数列”.具体的项目介绍见下文. 1.年龄计算 有 5 个人

  • R语言利用ggplot2绘制QQ图和箱线图详解

    目录 绘制qq图 函数介绍 例子 绘制boxplot 函数介绍 例子 利用分位点绘制箱线图 将QQ图和箱线图进行融合 函数介绍 参数介绍 注意事项 例子 绘制qq图 在ggplot2中绘制qq图需要两步,geom_qq()将绘制样本分位点,geom_qq_line()将绘制标准正态线 函数介绍 geom_qq() geom_qq( mapping = NULL, data = NULL, geom = "point", position = "identity",

  • R语言逻辑型运算的实现

    目录 一.逻辑型向量与比较运算 二.逻辑运算 三.逻辑运算函数 一.逻辑型向量与比较运算 逻辑型是 R 的基本数据类型之一,只有两个值 TRUE 和 FALSE, 缺失时为 NA. 逻辑值一般产生自比较,如 sele <- (log10(15) < 2); print(sele) 返回: 向量比较结果为逻辑型向量.如 c(1, 3, 5) > 2 返回: (1:4) >= (4:1) 返回: 与 NA 比较产生 NA,如 c(1, NA, 3) > 2 返回: NA == N

  • Go语言实现的可读性更高的并发神库详解

    目录 前言 WaitGroup的封装 worker池 Stream ForEach和map ForEach map 总结 前言 前几天逛github发现了一个有趣的并发库-conc,其目标是: 更难出现goroutine泄漏 处理panic更友好 并发代码可读性高 从简介上看主要封装功能如下: 对waitGroup进行封装,避免了产生大量重复代码,并且也封装recover,安全性更高 提供panics.Catcher封装recover逻辑,统一捕获panic,打印调用栈一些信息 提供一个并发执行

  • C语言实现opencv提取直线、轮廓及ROI实例详解

    一.Canny检测轮廓 在上一篇文章中有提到sobel边缘检测,并重写了soble的C++代码让其与matlab中算法效果一致,而soble边缘检测是基于单一阈值的,我们不能兼顾到低阈值的丰富边缘和高阈值时的边缘缺失这两个问题.而canny算子则很好的弥补了这一不足,从目前看来,canny边缘检测在做图像轮廓提取方面是最优秀的边缘检测算法. canny边缘检测采用双阈值值法,高阈值用来检测图像中重要的.显著的线条.轮廓等,而低阈值用来保证不丢失细节部分,低阈值检测出来的边缘更丰富,但是很多边缘并

  • 可能是你看过最全的十大排序算法详解(完整版代码)

    目录 前言 交集排序 冒泡 简单 快速排序 插入排序 直接插入排序 希尔排序 选择排序 简单选择排序 堆排序 归并排序 二路 多路 非比较类 计数排序 桶排序 基数排序 最后 前言 兄弟们,应上篇数据结构的各位要求,今天我开始工作了,开始肝算法,剑指offer还在路上,我真想开车去接它,奈何码神没有驾照的开车,算了,弄排序算法吧,有点长,耐心看啊,原创不易,你们懂的,先上一张图 可以看出排序算法,还是比较多的,算了,不多说了,你我肝完就是出门自带4年实习经验的! 交集排序 冒泡 冒泡我一般也将它

  • C语言自定义数据类型的结构体、枚举和联合详解

    结构体基础知识 首先结构体的出现是因为我们使用C语言的基本类型无法满足我们的需求,比如我们要描述一本书,就需要书名,作者,价格,出版社等等一系列的属性,无疑C语言的基本数据类型无法解决,所以就出现了最重要的自定义数据类型,结构体. 首先我们创建一个书的结构体类型来认识一下 struct Book { char name[20]; char author[20]; int price; }; 首先是struct是结构体关键字,用来告诉编译器你这里声明的是一个结构体类型而不是其他的东西,然后是Boo

  • C语言函数基础教程分类自定义参数及调用示例详解

    目录 1.  函数是什么? 2.  C语言中函数的分类 2.1 库函数 2.1.1 为什么要有库函数 2.1.2 什么是库函数 2.1.3 主函数只能是main()吗 2.1.4常见的库函数 2.2 自定义函数 2.2.1自定义函数是什么 2.2.2为什么要有自定义函数 2.2.3函数的组成 2.2.4 举例展示 3. 函数的参数 3.1 实际参数(实参) 3.2  形式参数(形参) 4. 函数的调用 4.1 传值调用 4.2  传址调用 4.3 练习 4.3.1. 写一个函数判断一年是不是闰年

随机推荐