python机器学习基础决策树与随机森林概率论

2025-01-30 01:37:45

一、决策树原理概述

1.决策树原理

决策树的分类原理，相当于程序中的if-then结构，通过条件判断，来决定结果。

2.信息论

①信息熵

假设有32支球队，在不知道任何信息的情况下，以二分法去猜冠军，最多猜log(2)32 = 5次。此时：每个球队的夺冠概率为1/32，那么：

5 = -（1/32log1/32 + 1/32log1/32 + ......）共32项相加。

若事先可以得知一点点信息，则使用二分法猜冠军的时候，次数一定比5次小，那么它的准确信息量应该是：

H = -(p1logp1 + p2logp2 + ... + p32logp32)

则H称为信息熵，单位为比特bit。

根据以上内容，可知，信息是和消除不确定性相联系的。当毫无信息的时候，信息熵最大，只要有了一定的信息，那么信息熵就会减小，不确定性也会减小。

②决策树的分类依据

信息增益：当得知一个特征条件之后，减少的信息熵的大小。计算公式如下：

每一个特征所对应的信息增益都可以通过上式计算出来，通过比较，信息增益最大的作为首要的分类标准。也就是说，每一个特征都可能对减小信息熵有作用，并且作用大小不一样。作用越大，减少的信息熵越大，则该特征越重要，便可首先拿这个最重要的作为分类标准。

③其他决策树使用的算法

其中，基尼系数对样本的划分更加仔细，甚至能对训练集分类达到100%，但通常这种情况下，会导致模型在测试集中的表现不好，因为它为了达到更高的拟合度，会过于针对训练集样本，由此降低了普遍性。

④决策树API

二、决策树算法案例

1.案例概述

本案例中，使用泰坦尼克号上的乘客数据作为样本，是否存活作为目标值。样本特征包含年龄、性别、目的地、船舱类型等等。我们在模型训练中，只使用了船舱类型（Pclass），性别（Sex），年龄（Age）这三个作为训练集样本特征。

2.数据处理

假设已经获取到了数据集，并赋值给titan

找出特征值和目标值：x = titan[['Pclass', 'Age', 'Sex']] y = titan['Survived']

缺失值处理：x['Age'].fillna(x['Age'].mean(), inplace=True)

分割数据集：x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)

3.特征工程

由于船舱类型和性别的数据都不是数字，因此需要用one-hot编码来代替特征数据。通过字典数据处理，即可生成。因此，需要将训练集转换为字典，通过DictVectorizer转换即可。(注意：转换的是整个训练集，而不是单独转换某几列)

实例化转换器：dict = DictVectorizer(sparse = False)

对训练集转换：x_train = dict.fit_transform(x_train.to_dict,(orient='records'))

对测试集转换：x_test = dict.transform(x_test.to_dict(orient='records'))

4.使用决策树进行预测

预测后可以使用graphviz查看图像化的决策树。需要先安装，将导出的dot文件直接放在graphviz目录下，在命令行，通过 dot -Tpng tree.dot -o tree.png命令即可导出png图像。

dec = DecisionTreeClassifier()

训练算法：dec.fit(x_train,y_train)

打印准确率：print(dec.score(x_test, y_test))

导出树的结构：tree.export_graphviz(dec, out_file='D:/Graphviz/tree.dot', feature_names= [","])

注意，最后一个feature_names，直接在特征工程中，调用dict.get_feature_names，即可输出所需内容。

5.决策树优缺点及改进

优点：

原理及解释较为简单，并且可以将树木可视化

需要很少的数据准备，其他技术通常需要数据归一化

缺点：

决策树学习者可以创建不能很好地推广数据的过于复杂的树，这被称为过拟合。

决策树可能不稳定，因为数据的小变化可能会导致完全不同的树被生成

改进：

减枝cart算法、随机森林

三、随机森林

1.集成学习方法

集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型，各自独立地学习和作出预测。这些预测最后结合成单预测，因此优于任何一个单分类的做出预测。

随机森林就是一种继承学习方法，定义：在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。

2.单个树建立过程

①随机在N个样本中，有放回地选择一个样本，重复N次，样本可能重复

②随机在M个特征中选出m个特征，m取值小于总特征M

假如建立了10棵决策树，他们的样本以及特征大多都是不一样的。使用随机有返回的抽样（bootstrap抽样）。

3.随机森林API

随机森林超参数：

n_estimator：决策树数量

max_depth：每棵树深度限制

4.随机森林使用案例

还是用上面决策树的案例，假设已经准备好了训练集x_train, y_train，测试集x_test, y_test

rf = RandomForestClassifier()

由于随机森林有超参数n_estimator，max_depth，因此可以使用网格搜索交叉验证，对不同的参数组合进行一一验证，寻找最好的参数组合模型。

设置超参数取值：param = {'n_estimator':[100,200,300,400,500], 'max_depth':[5,10,15,20]}

实例化算法：gc = GridSearchCV(rf, param_grid=param, cv=2) （假设使用二折验证）

训练算法：gc.fit(x_train, y_train)

输出准确率：gc.score(x_test, y_test)

查看所选择的参数模型：gc.best_params_

5.随机森林的优点

①在当前所有算法中，具有极好的准确率

②能够有效地运行在大数据集上（样本数、特征数）

③能够处理具有高维特征的输入样本，而且不需要降维

④能够评估各个特征在分类问题上的重要性

以上就是python机器学习基础决策树与随机森林概率论的详细内容，更多关于python决策树与随机森林概率论的资料请关注我们其它相关文章！

python机器学习朴素贝叶斯算法及模型的选择和调优详解

目录一.概率知识基础 1.概率 2.联合概率 3.条件概率二.朴素贝叶斯 1.朴素贝叶斯计算方式 2.拉普拉斯平滑 3.朴素贝叶斯API 三.朴素贝叶斯算法案例 1.案例概述 2.数据获取 3.数据处理 4.算法流程 5.注意事项四.分类模型的评估 1.混淆矩阵 2.评估模型API 3.模型选择与调优 ①交叉验证 ②网格搜索五.以knn为例的模型调优使用方法 1.对超参数进行构造 2.进行网格搜索 3.结果查看一.概率知识基础 1.概率概率就是某件事情发生的可能性. 2.联合概率包
python机器学习算法与数据降维分析详解

目录一.数据降维 1.特征选择 2.主成分分析(PCA) 3.降维方法使用流程二.机器学习开发流程 1.机器学习算法分类 2.机器学习开发流程三.转换器与估计器 1.转换器 2.估计器一.数据降维机器学习中的维度就是特征的数量,降维即减少特征数量.降维方式有:特征选择.主成分分析. 1.特征选择当出现以下情况时,可选择该方式降维: ①冗余:部分特征的相关度高,容易消耗计算性能 ②噪声:部分特征对预测结果有影响特征选择主要方法:过滤式(VarianceThreshold).嵌入式(正
jquery.AutoComplete.js中文修正版(支持firefox)

复制代码代码如下: jQuery.autocomplete = function(input, options) { // Create a link to self var me = this; // Create jQuery object for input element var $input = $(input).attr("autocomplete", "off"); // Apply inputClass if necessary if (optio
python机器学习基础K近邻算法详解KNN

目录一.k-近邻算法原理及API 1.k-近邻算法原理 2.k-近邻算法API 3.k-近邻算法特点二.k-近邻算法案例分析案例信息概述第一部分:处理数据 1.数据量缩小 2.处理时间 3.进一步处理时间 4.提取并构造时间特征 5.删除无用特征 6.签到数量少于3次的地点,删除 7.提取目标值y 8.数据分割第二部分:特征工程标准化第三部分:进行算法流程 1.算法执行 2.预测结果 3.检验效果一.k-近邻算法原理及API 1.k-近邻算法原理如果一个样本在特征空间中的k个最相
python机器学习基础特征工程算法详解

目录一.机器学习概述二.数据集的构成 1.数据集存储 2.可用的数据集 3.常用数据集的结构三.特征工程 1.字典数据特征抽取 2.文本特征抽取 3.文本特征抽取:tf-idf 4.特征预处理:归一化 5.特征预处理:标准化 6.特征预处理:缺失值处理一.机器学习概述机器学习是从数据中,自动分析获得规律(模型),并利用规律对未知数据进行预测. 二.数据集的构成 1.数据集存储机器学习的历史数据通常使用csv文件存储. 不用mysql的原因: 1.文件大的话读取速度慢: 2.格式不符合
基于Python和Scikit-Learn的机器学习探索

你好,%用户名%! 我叫Alex,我在机器学习和网络图分析(主要是理论)有所涉猎.我同时在为一家俄罗斯移动运营商开发大数据产品.这是我第一次在网上写文章,不喜勿喷. 现在,很多人想开发高效的算法以及参加机器学习的竞赛.所以他们过来问我:"该如何开始?".一段时间以前,我在一个俄罗斯联邦政府的下属机构中领导了媒体和社交网络大数据分析工具的开发.我仍然有一些我团队使用过的文档,我乐意与你们分享.前提是读者已经有很好的数学和机器学习方面的知识(我的团队主要由MIPT(莫斯科物理与技术大学)和
python机器学习基础决策树与随机森林概率论

目录一.决策树原理概述 1.决策树原理 2.信息论 ①信息熵 ②决策树的分类依据 ③其他决策树使用的算法 ④决策树API 二.决策树算法案例 1.案例概述 2.数据处理 3.特征工程 4.使用决策树进行预测 5.决策树优缺点及改进三.随机森林 1.集成学习方法 2.单个树建立过程 3.随机森林API 4.随机森林使用案例 5.随机森林的优点一.决策树原理概述 1.决策树原理决策树的分类原理,相当于程序中的if-then结构,通过条件判断,来决定结果. 2.信息论 ①信息熵假设有32支球
Python机器学习之决策树和随机森林

目录什么是决策树决策树组成节点的确定方法决策树基本流程决策树的常用参数代码实现决策树之分类树网格搜索在分类树上的应用分类树在合成数据的表现什么是随机森林随机森林的原理随机森林常用参数决策树和随机森林效果实例用随机森林对乳腺癌数据的调参什么是决策树决策树属于经典的十大数据挖掘算法之一,是通过类似于流程图的数形结构,其规则就是iIF-THEN-的思想.,可以用于数值型因变量的预测或离散型因变量的分类,该算法简单直观,通俗易懂,不需要研究者掌握任何领域的知识或者复杂的数学
Python决策树和随机森林算法实例详解

本文实例讲述了Python决策树和随机森林算法.分享给大家供大家参考,具体如下: 决策树和随机森林都是常用的分类算法,它们的判断逻辑和人的思维方式非常类似,人们常常在遇到多个条件组合问题的时候,也通常可以画出一颗决策树来帮助决策判断.本文简要介绍了决策树和随机森林的算法以及实现,并使用随机森林算法和决策树算法来检测FTP暴力破解和POP3暴力破解,详细代码可以参考: https://github.com/traviszeng/MLWithWebSecurity 决策树算法决策树表现了对象属性和
python实现决策树、随机森林的简单原理

本文申明:此文为学习记录过程,中间多处引用大师讲义和内容. 一.概念决策树(Decision Tree)是一种简单但是广泛使用的分类器.通过训练数据构建决策树,可以高效的对未知的数据进行分类.决策数有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析:2)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度. 看了一遍概念后,我们先从一个简单的案例开始,如下图我们样本: 对于上面的样本数据,根据不同特征值我们最后是选择是否约会,我们先自定义的一个决策树
python机器学习实现决策树

本文实例为大家分享了python机器学习实现决策树的具体代码,供大家参考,具体内容如下 # -*- coding: utf-8 -*- """ Created on Sat Nov 9 10:42:38 2019 @author: asus """ """ 决策树目的: 1. 使用决策树模型 2. 了解决策树模型的参数 3. 初步了解调参数要求: 基于乳腺癌数据集完成以下任务: 1.调整参数criterion,使
Python机器学习之决策树

一.要求二.原理决策树是一种类似于流程图的结构,其中每个内部节点代表一个属性上的"测试",每个分支代表测试的结果,每个叶节点代表一个测试结果.类标签(在计算所有属性后做出的决定).从根到叶的路径代表分类规则. 决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树.因此如何构建决策树,是后续预测的关键!而构建决策树,就需要确定类标签判断的先后,其决定了构建的决策树的性能.决策树的分支节点应该尽可能的属于同一类别,即节点的"纯度"要越来越高,只有这
python机器学习基础线性回归与岭回归算法详解

目录一.什么是线性回归 1.线性回归简述 2.数组和矩阵数组矩阵 3.线性回归的算法二.权重的求解 1.正规方程 2.梯度下降三.线性回归案例 1.案例概述 2.数据获取 3.数据分割 4.数据标准化 5.模型训练 6.回归性能评估 7.梯度下降与正规方程区别四.岭回归Ridge 1.过拟合与欠拟合 2.正则化一.什么是线性回归 1.线性回归简述线性回归,是一种趋势,通过这个趋势,我们能预测所需要得到的大致目标值.线性关系在二维中是直线关系,三维中是平面关系. 我们可以使用如下模
python实现H2O中的随机森林算法介绍及其项目实战

H2O中的随机森林算法介绍及其项目实战(python实现) 包的引入:from h2o.estimators.random_forest import H2ORandomForestEstimator H2ORandomForestEstimator 的常用方法和参数介绍: (一)建模方法: model ＝H2ORandomForestEstimator(ntrees=n,max_depth =m) model.train(x=random_pv.names,y='Catrgory',train