分享Python 中的 7 种交叉验证方法

目录
  • 一、什么是交叉验证?
  • 二、它是如何解决过拟合问题的?
    • 1、HoldOut交叉验证
    • 2、K折交叉验证
    • 3、分层K折交叉验证
    • 4、LeavePOut交叉验证
    • 5、留一交叉验证
    • 6、蒙特卡罗交叉验证(ShuffleSplit)
    • 7、时间序列交叉验证

在任何有监督机器学习项目的模型构建阶段,我们训练模型的目的是从标记的示例中学习所有权重和偏差的最佳值。

如果我们使用相同的标记示例来测试我们的模型,那么这将是一个方法论错误,因为一个只会重复刚刚看到的样本标签的模型将获得完美的分数,但无法预测任何有用的东西 - 未来的数据,这种情况称为过拟合。

为了克服过度拟合的问题,我们使用交叉验证。 所以你必须知道什么是交叉验证? 以及如何解决过拟合的问题?

一、什么是交叉验证?

交叉验证是一种用于估计机器学习模型性能的统计方法,它是一种评估统计分析结果如何推广到独立数据集的方法。

二、它是如何解决过拟合问题的?

在交叉验证中,我们将训练数据生成多个小的训练测试分割,使用这些拆分来调整您的模型。 例如,在标准的 k 折交叉验证中,我们将数据划分为 k 个子集。 然后,我们在 k-1 个子集上迭代训练算法,同时使用剩余的子集作为测试集。 通过这种方式,我们可以在未参与训练的数据上测试我们的模型。

在本文中,我将分享 7 种最常用的交叉验证技术及其优缺点,我还提供了每种技术的代码片段。

下面列出了这些技术方法:

  • HoldOut 交叉验证
  • K-Fold 交叉验证
  • 分层 K-Fold交叉验证
  • Leave P Out 交叉验证
  • 留一交叉验证
  • 蒙特卡洛 (Shuffle-Split)
  • 时间序列(滚动交叉验证)

1、HoldOut 交叉验证

在这种交叉验证技术中,整个数据集被随机划分为训练集和验证集。 根据经验,整个数据集的近 70% 用作训练集,其余 30% 用作验证集。

优点:

1.快速执行:因为我们必须将数据集拆分为训练集和验证集一次,并且模型将在训练集上仅构建一次,因此可以快速执行。

缺点:

  • 不适合不平衡数据集:假设我们有一个不平衡数据集,它具有“0”类和“1”类。 假设 80% 的数据属于“0”类,其余 20% 的数据属于“1”类。在训练集大小为 80%,测试数据大小为数据集的 20% 的情况下进行训练-测试分割。 可能会发生“0”类的所有 80% 数据都在训练集中,而“1”类的所有数据都在测试集中。 所以我们的模型不能很好地概括我们的测试数据,因为它之前没有看到过“1”类的数据。
  • 大量数据无法训练模型。

在小数据集的情况下,将保留一部分用于测试模型,其中可能具有我们的模型可能会错过的重要特征,因为它没有对该数据进行训练。

代码片段

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
iris=load_iris()
X=iris.data
Y=iris.target
print("Size of Dataset {}".format(len(X)))
logreg=LogisticRegression()
x_train,x_test,y_train,y_test=train_test_split(X,Y,test_size=0.3,random_state=42)
logreg.fit(x_train,y_train)
predict=logreg.predict(x_test)
print("Accuracy score on training set is {}".format(accuracy_score(logreg.predict(x_train),y_train)))
print("Accuracy score on test set is {}".format(accuracy_score(predict,y_test)))

2、K 折交叉验证

在这种 K 折交叉验证技术中,整个数据集被划分为 K 个相等大小的部分。 每个分区称为一个“折叠”。因此,因为我们有 K 个部分,所以我们称之为 K 折叠。 一折用作验证集,其余 K-1 折用作训练集。

该技术重复 K 次,直到每个折叠用作验证集,其余折叠用作训练集。

模型的最终精度是通过取k-models 验证数据的平均精度来计算的。

优点:

  • 整个数据集既用作训练集又用作验证集:

缺点:

  • 不用于不平衡的数据集:正如在 HoldOut 交叉验证的情况下所讨论的,在 K-Fold 验证的情况下也可能发生训练集的所有样本都没有样本形式类“1”,并且只有 类“0”。验证集将有一个类“1”的样本。
  • 不适合时间序列数据:对于时间序列数据,样本的顺序很重要。 但是在 K 折交叉验证中,样本是按随机顺序选择的。

代码片段:

from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score,KFold
from sklearn.linear_model import LogisticRegression
iris=load_iris()
X=iris.data
Y=iris.target
logreg=LogisticRegression()
kf=KFold(n_splits=5)
score=cross_val_score(logreg,X,Y,cv=kf)
print("Cross Validation Scores are {}".format(score))
print("Average Cross Validation score :{}".format(score.mean()))

3、分层 K 折交叉验证

分层 K-Fold 是 K-Fold 交叉验证的增强版本,主要用于不平衡的数据集。 就像 K-fold 一样,整个数据集被分成大小相等的 K-fold。

但是在这种技术中,每个折叠将具有与整个数据集中相同的目标变量实例比率。

优点:

  • 对于不平衡数据非常有效:分层交叉验证中的每个折叠都会以与整个数据集中相同的比率表示所有类别的数据。

缺点:

  • 不适合时间序列数据:对于时间序列数据,样本的顺序很重要。 但在分层交叉验证中,样本是按随机顺序选择的。

代码片段:

from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score,StratifiedKFold
from sklearn.linear_model import LogisticRegression
iris=load_iris()
X=iris.data
Y=iris.target
logreg=LogisticRegression()
stratifiedkf=StratifiedKFold(n_splits=5)
score=cross_val_score(logreg,X,Y,cv=stratifiedkf)
print("Cross Validation Scores are {}".format(score))
print("Average Cross Validation score :{}".format(score.mean()))

4、Leave P Out 交叉验证

Leave P Out 交叉验证是一种详尽的交叉验证技术,其中 p 样本用作验证集,剩余的 np 样本用作训练集。

假设我们在数据集中有 100 个样本。 如果我们使用 p=10,那么在每次迭代中,10 个值将用作验证集,其余 90 个样本将用作训练集。

重复这个过程,直到整个数据集在 p-样本和 n-p 训练样本的验证集上被划分。

优点:

  • 所有数据样本都用作训练和验证样本。

缺点:

  • 计算时间长:由于上述技术会不断重复,直到所有样本都用作验证集,因此计算时间会更长。
  • 不适合不平衡数据集:与 K 折交叉验证相同,如果在训练集中我们只有 1 个类的样本,那么我们的模型将无法推广到验证集。

代码片段

from sklearn.model_selection import LeavePOut,cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
iris=load_iris()
X=iris.data
Y=iris.target
lpo=LeavePOut(p=2)
lpo.get_n_splits(X)
tree=RandomForestClassifier(n_estimators=10,max_depth=5,n_jobs=-1)
score=cross_val_score(tree,X,Y,cv=lpo)
print("Cross Validation Scores are {}".format(score))
print("Average Cross Validation score :{}".format(score.mean()))

5、留一交叉验证

留一交叉验证是一种详尽的交叉验证技术,其中 1 个样本点用作验证集,其余 n-1 个样本用作训练集。

假设我们在数据集中有 100 个样本。 然后在每次迭代中,1 个值将用作验证集,其余 99 个样本作为训练集。 因此,重复该过程,直到数据集的每个样本都用作验证点。

它与使用 p=1 的 LeavePOut 交叉验证相同。

代码片段:

from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import LeaveOneOut,cross_val_score
iris=load_iris()
X=iris.data
Y=iris.target
loo=LeaveOneOut()
tree=RandomForestClassifier(n_estimators=10,max_depth=5,n_jobs=-1)
score=cross_val_score(tree,X,Y,cv=loo)
print("Cross Validation Scores are {}".format(score))
print("Average Cross Validation score :{}".format(score.mean()))

6、蒙特卡罗交叉验证(Shuffle Split)

蒙特卡罗交叉验证,也称为Shuffle Split交叉验证,是一种非常灵活的交叉验证策略。 在这种技术中,数据集被随机划分为训练集和验证集。

我们已经决定了要用作训练集的数据集的百分比和用作验证集的百分比。 如果训练集和验证集大小的增加百分比总和不是 100,则剩余的数据集不会用于训练集或验证集。

假设我们有 100 个样本,其中 60% 的样本用作训练集,20% 的样本用作验证集,那么剩下的 20%( 100-(60+20)) 将不被使用。

这种拆分将重复我们必须指定的“n”次。

优点:

  • 1.我们可以自由使用训练和验证集的大小。
  • 2.我们可以选择重复的次数,而不依赖于重复的折叠次数。

缺点:

  • 可能不会为训练集或验证集选择很少的样本。
  • 不适合不平衡的数据集:在我们定义了训练集和验证集的大小后,所有的样本都是随机选择的,所以训练集可能没有测试中的数据类别 设置,并且该模型将无法概括为看不见的数据。

代码片段:

from sklearn.model_selection import ShuffleSplit,cross_val_score
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
logreg=LogisticRegression()
shuffle_split=ShuffleSplit(test_size=0.3,train_size=0.5,n_splits=10)
scores=cross_val_score(logreg,iris.data,iris.target,cv=shuffle_split)
print("cross Validation scores:n {}".format(scores))
print("Average Cross Validation score :{}".format(scores.mean()))

7、时间序列交叉验证

什么是时间序列数据?

时间序列数据是在不同时间点收集的数据。由于数据点是在相邻时间段收集的,因此观测值之间可能存在相关性。这是区分时间序列数据与横截面数据的特征之一。

在时间序列数据的情况下如何进行交叉验证?

在时间序列数据的情况下,我们不能选择随机样本并将它们分配给训练集或验证集,因为使用未来数据中的值来预测过去数据的值是没有意义的。

由于数据的顺序对于时间序列相关问题非常重要,所以我们根据时间将数据拆分为训练集和验证集,也称为“前向链”方法或滚动交叉验证。

我们从一小部分数据作为训练集开始。基于该集合,我们预测稍后的数据点,然后检查准确性。

然后将预测样本作为下一个训练数据集的一部分包括在内,并对后续样本进行预测。

优点:

  • 最好的技术之一。

缺点:

  • 不适用于其他数据类型的验证:与其他技术一样,我们选择随机样本作为训练或验证集,但在该技术中数据的顺序非常重要。

代码片段:

import numpy as np
from sklearn.model_selection import TimeSeriesSplit
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4], [1, 2], [3, 4]])
y = np.array([1, 2, 3, 4, 5, 6])
time_series = TimeSeriesSplit()
print(time_series)
for train_index, test_index in time_series.split(X):
    print("TRAIN:", train_index, "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

结论:

在本文中,我试图概述各种交叉验证技术的工作原理以及我们在实施这些技术时应牢记的事项,我真诚地希望在这个数据科学之旅中对你有所帮助。

到此这篇关于 分享Python 中的 7 种交叉验证方法的文章就介绍到这了,更多相关Python 交叉验证方法内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Python sklearn KFold 生成交叉验证数据集的方法

    源起: 1.我要做交叉验证,需要每个训练集和测试集都保持相同的样本分布比例,直接用sklearn提供的KFold并不能满足这个需求. 2.将生成的交叉验证数据集保存成CSV文件,而不是直接用sklearn训练分类模型. 3.在编码过程中有一的误区需要注意: 这个sklearn官方给出的文档 >>> import numpy as np >>> from sklearn.model_selection import KFold >>> X = [&quo

  • Python实现K折交叉验证法的方法步骤

    学习器在测试集上的误差我们通常称作"泛化误差".要想得到"泛化误差"首先得将数据集划分为训练集和测试集.那么怎么划分呢?常用的方法有两种,k折交叉验证法和自助法.介绍这两种方法的资料有很多.下面是k折交叉验证法的python实现. ##一个简单的2折交叉验证 from sklearn.model_selection import KFold import numpy as np X=np.array([[1,2],[3,4],[1,3],[3,5]]) Y=np.a

  •  分享Python 中的 7 种交叉验证方法

    目录 一.什么是交叉验证? 二.它是如何解决过拟合问题的? 1.HoldOut交叉验证 2.K折交叉验证 3.分层K折交叉验证 4.LeavePOut交叉验证 5.留一交叉验证 6.蒙特卡罗交叉验证(ShuffleSplit) 7.时间序列交叉验证 在任何有监督机器学习项目的模型构建阶段,我们训练模型的目的是从标记的示例中学习所有权重和偏差的最佳值. 如果我们使用相同的标记示例来测试我们的模型,那么这将是一个方法论错误,因为一个只会重复刚刚看到的样本标签的模型将获得完美的分数,但无法预测任何有用

  • 分享python中matplotlib指定绘图颜色的八种方式

    目录 1.使用[0,1]之间浮点数值表示RGB/RGBA颜色值 2.使用十六进制RGB/RGBA字符串表示颜色 3.使用颜色首字母 4.使用X11/CSS4的颜色名 5.使用xkcd颜色 6.Tableau的T10种颜色 7.CN表示的循环颜色 8.字符串表示的浮点数值 9.绘图函数与汇总 在使用matplotlib的pyplot库进行绘图时,经常会发现各种开源代码指定“color”的方式并不一致.发现共有8种指定color的方式. 8种方式如下: 使用[0, 1]之间浮点数值表示RGB/RGB

  • 简单了解Python中的几种函数

    几个特殊的函数(待补充) python是支持多种范型的语言,可以进行所谓函数式编程,其突出体现在有这么几个函数: filter.map.reduce.lambda.yield lambda >>> g = lambda x,y:x+y #x+y,并返回结果 >>> g(3,4) 7 >>> (lambda x:x**2)(4) #返回4的平方 16 lambda函数的使用方法: 在lambda后面直接跟变量 变量后面是冒号 冒号后面是表达式,表达式计算

  • 分享Python中四个不常见的小技巧

    目录 1. 引言 2. 获取 n 个最大数字 3. 获取 n 个最小数字 4. 删除字符串的特定部分 5. 从列表中删除重复元素 6. 总结 1. 引言 在编程界,每个人都希望自己可以写出世界上最好的代码,其实最好的代码往往需要具备最好的代码质量.勤能补拙,善于总结往往可以快速提升大家的编程技巧. 本文重点对日常中不常使用的四个Python技巧进行简明阐述,希望可以提升大家编码时的工作效率. 闲话少说,我们直接开始吧! 2. 获取 n 个最大数字 我们知道,要获得列表中的最大数字,我们往往使用​

  • 详解Python中的四种队列

    队列是一种只允许在一端进行插入操作,而在另一端进行删除操作的线性表. 在Python文档中搜索队列(queue)会发现,Python标准库中包含了四种队列,分别是queue.Queue / asyncio.Queue / multiprocessing.Queue / collections.deque. collections.deque deque是双端队列(double-ended queue)的缩写,由于两端都能编辑,deque既可以用来实现栈(stack)也可以用来实现队列(queue

  • Python中的四种交换数值的方法解析

    这篇文章主要介绍了Python中的四种交换数值的方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 交换两个变量的值方法,这个面试题如果只写一种当然很简单,没什么可以说的. 今天这个面试是问大家有几种办法来实现交换两个变量的值. 在没开始看具体答案前,你可以先想想看 下面分别来说说这几种方法 方法一 通过新添加中间变量temp的方式,这个方法是最简单的,每个语言都适用. 方法二 Python独有的方法,一行代码就能搞定,直接将两个变量放到元

  • 详解python中的三种命令行模块(sys.argv,argparse,click)

    Python作为一门脚本语言,经常作为脚本接受命令行传入参数,Python接受命令行参数大概有三种方式.因为在日常工作场景会经常使用到,这里对这几种方式进行总结. 命令行参数模块 这里命令行参数模块平时工作中用到最多就是这三种模块:sys.argv,argparse,click.sys.argv和argparse都是内置模块,click则是第三方模块. sys.argv模块(内置模块) 先看一个简单的示例: #!/usr/bin/python import sys def hello(name,

  • python中的3种定义类方法

    目录 1.普通方法 2.类方法 3.静态方法 4.总结 python中的3种定义类方法: 普通方法 类方法(@classmethod) 类方法(@classmethod) 1.普通方法 创建普通的方法的方式有两种(class A() & class B()). class A(): def __init__(self, name, age): self.name = name self.age = age def get_name(self): print('my name is', self.

  • 分享JavaScript 中的几种继承方式

    目录 一.原型链 1.1 原型链的问题 二.盗用构造函数 2.1 基本思想 2.2 可向父类构造函数传参 2.3 盗用构造函数的问题 三.组合继承(伪经典继承) 3.1 基本思想 3.2 组合继承的问题 四.原型式继承 4.1 基本思想 4.2 Object.create() (1)语法 (2)示例 (3)手动实现 五.寄生式继承 5.1 基本思想 5.2 寄生式继承 六.寄生式组合继承 6.1 基本思想 前言: 说到JavaScript中的继承,与之密切相关的就是原型链了,JavaScript

  • 在Python中通过getattr获取对象引用的方法

    getattr函数 (1)使用 getattr 函数,可以得到一个直到运行时才知道名称的函数的引用. >>> li = ["Larry", "Curly"] >>> li.pop <built-in method pop of list object at 0x7fb75c255518> // 该语句获取列表的 pop 方法的引用,注意该语句并不是调用 pop 方法,调用 pop 方法的应该是 li.pop(), 这里

随机推荐