python机器学习之决策树分类详解

2025-02-28 22:04:32

决策树分类与上一篇博客k近邻分类的最大的区别就在于，k近邻是没有训练过程的，而决策树是通过对训练数据进行分析，从而构造决策树，通过决策树来对测试数据进行分类，同样是属于监督学习的范畴。决策树的结果类似如下图：

图中方形方框代表叶节点，带圆边的方框代表决策节点，决策节点与叶节点的不同之处就是决策节点还需要通过判断该节点的状态来进一步分类。

那么如何通过训练数据来得到这样的决策树呢？

这里涉及要信息论中一个很重要的信息度量方式，香农熵。通过香农熵可以计算信息增益。

香农熵的计算公式如下：

p(xi)代表数据被分在i类的概率，可以通过计算数据集中i类的个数与总的数据个数之比得到，计算香农熵的python代码如下：

from math import log 

def calcShannonEnt(dataSet):
  numEntries=len(dataSet)
  labelCounts={}
  for featVec in dataSet:
    currentLabel=featVec[-1]
    if currentLabel not in labelCounts.keys():
      labelCounts[currentLabel]=0
    labelCounts[currentLabel]+=1
  shannonEnt=0.0
  for key in labelCounts:
    prob=float(labelCounts[key])/numEntries
    shannonEnt-=prob*log(prob,2)
  return shannonEnt

一般来说，数据集中，不同的类别越多，即信息量越大，那么熵值越大，通过计算熵，就可以知道选择哪一个特征能够最好的分开数据，这个特征就是一个决策节点。

下面就可以根据训练数据开始构造决策树。

首先编写一个根据给定特征划分数据集的函数：

#划分数据集，返回第axis轴为value值的数据集
def splitDataSet(dataset,axis,value):
  retDataSet=[]
  for featVec in dataset:
    if featVec[axis]==value:
      reducedFeatVec=featVec[:]
      del(reducedFeatVec[axis])
      retDataSet.append(reducedFeatVec)
  return retDataSet

下面找出数据集中能够最好划分数据的那个特征，它的原理是计算经过每一个特征轴划分后的数据的信息增益，信息增益越大，代表通过该特征轴划分是最优的。

#选择最好的数据集划分方式，返回最佳的轴
def chooseBestFeatureToSplit(dataset):
  numFeatures=len(dataset[0])-1
  baseEntrypy=calcShannonEnt(dataset)
  bestInfoGain=0.0
  bestFeature=-1
  for i in range(numFeatures):
    featList=[example[i] for example in dataset]
    uniqueVals=set(featList)
    newEntrypy=0.0
    for value in uniqueVals:
      subDataSet=splitDataSet(dataset,i,value)
      prob=len(subDataSet)/float(len(dataset))
      newEntrypy+=prob*calcShannonEnt(subDataSet)
    infoGain=baseEntrypy-newEntrypy        #计算信息增益，信息增益最大，就是最好的划分
    if infoGain>bestInfoGain:
      bestInfoGain=infoGain
      bestFeature=i
  return bestFeature

找出最优的划分轴之后，便可以通过递归来构建决策树，递归有两个终止条件，第一个是程序遍历完所有划分数据集的特征轴，第二个是每个分支下的所有实例都有相同的分类。那么，这里有一个问题，就是当遍历完所有数据集时，分出来的数据还不是同一类别，这种时候，一般选取类别最多的作为该叶节点的分类。

首先编写一个在类别向量中找出类别最多的那一类：

#计算类型列表中，类型最多的类型
def majorityCnt(classList):
  classCount={}
  for vote in classList:
    if vote not in classCount.keys():
      classCount[vote]=0
    classCount[vote]+=1
  sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)
  return sortedClassCount[0][0]

递归创建决策树：

#根据训练数据创建树
def createTree(dataSet,labels):
  myLabels=labels[:]
  classList=[example[-1] for example in dataSet] #类别
  if classList.count(classList[0])==len(classList):#数据集中都是同类
    return classList[0]
  if len(dataSet[0])==1:#训练集中只有一个数据
    return majorityCnt(classList)
  bestFeat=chooseBestFeatureToSplit(dataSet)
  bestFeatLabel=myLabels[bestFeat]
  myTree={bestFeatLabel:{}}
  del(myLabels[bestFeat])
  featValue=[example[bestFeat] for example in dataSet]
  uniqueVal=set(featValue)
  for value in uniqueVal:
    subLabels=myLabels[:]
    myTree[bestFeatLabel][value]=createTree(splitDataSet(dataSet,bestFeat,value),subLabels)
  return myTree

将上述代码保存到tree.py中，在命令窗口输入以下代码：

>>> dataSet=[[1,1,'yes'],
       [1,1,'yes'],
       [1,0,'no'],
       [0,1,'no'],
       [0,1,'no']]
>>> labels=['no sufacing','flippers']
>>> tree.createTree(dataSet,labels)
{'no sufacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}

就得到了决策树的结构，可以画出树的结构图

上面数据的实际意义是通过生物特征，来判断是否属于鱼类，第一列数据中1代表在水中可以生存，0代表在水中不可以生存。第二列中1代表有脚蹼，0代表没有脚蹼。yes是鱼类，no不是鱼类。label是训练数据中每一列代表的意义。那么通过训练数据我们就构造出了决策树，由图可知，我们首先可以根据第一列特征，即在水中是否可以生存来进行第一步判断，不可以生存的肯定不是鱼类，可以生存的还要看是否有脚蹼，有脚蹼的才是鱼类。

不难看出，决策树最大的优势就是它的数据形式易于理解，分类方式直观。

训练出决策树之后，我们就可以根据根据决策树来对新的测试数据进行分类。

分类代码如下：

#根据决策树分类
def classify(inputTree,featLabels,testVec):
  firstStr=inputTree.keys()[0]
  secondDict=inputTree[firstStr]
  featIndex=featLabels.index(firstStr)
  for key in secondDict.keys():
    if testVec[featIndex]==key:
      if type(secondDict[key]).__name__=='dict':
        classLabel=classify(secondDict[key],featLabels,testVec)
      else:
        classLabel=secondDict[key]
  return classLabel

这里有一个通过决策数算法进行分类的一个实例，眼科医生是如何判断患者需要佩戴隐形眼镜的类型的。

判断的结果有三种，硬材料，软材料和不适合佩戴。

训练数据采用隐形眼镜数据集，数据集来自UCI数据库，它包含了很多患者眼部状况的观察条件以及医生推荐的眼镜类型。

数据集如下：

测试代码如下：

def example():
  fr=open('lenses.txt')
  lenses=[inst.strip().split('\t') for inst in fr.readlines()]
  lensesLabels=['age','prescript','astigmatic','tearRate']
  lensesTree=createTree(lenses,lensesLabels)
  return lensesTree

结果：

决策树结构如下：

这样，医生便可以一步步的观察来最终得知该患者适合什么材料的隐形眼镜了。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

Python机器学习之决策树算法实例详解

本文实例讲述了Python机器学习之决策树算法.分享给大家供大家参考,具体如下: 决策树学习是应用最广泛的归纳推理算法之一,是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一棵决策树.决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,机器学习算法最终将使用这些从数据集中创造的规则.决策树的优点为:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据.缺点为:可能产生过度匹配的问题.决策树适于处理离散型和连续型的数据. 在决策树中最重要的就是如何选取
python决策树之CART分类回归树详解

决策树之CART(分类回归树)详解,具体内容如下 1.CART分类回归树简介 CART分类回归树是一种典型的二叉决策树,可以处理连续型变量和离散型变量.如果待预测分类是离散型数据,则CART生成分类决策树:如果待预测分类是连续型数据,则CART生成回归决策树.数据对象的条件属性为离散型或连续型,并不是区别分类树与回归树的标准,例如表1中,数据对象xi的属性A.B为离散型或连续型,并是不区别分类树与回归树的标准. 表1 2.CART分类回归树分裂属性的选择 2.1 CART分类树--待预测
python编写分类决策树的代码

决策树通常在机器学习中用于分类. 优点:计算复杂度不高,输出结果易于理解,对中间值缺失不敏感,可以处理不相关特征数据. 缺点:可能会产生过度匹配问题. 适用数据类型:数值型和标称型. 1.信息增益划分数据集的目的是:将无序的数据变得更加有序.组织杂乱无章数据的一种方法就是使用信息论度量信息.通常采用信息增益,信息增益是指数据划分前后信息熵的减少值.信息越无序信息熵越大,获得信息增益最高的特征就是最好的选择. 熵定义为信息的期望,符号xi的信息定义为: 其中p(xi)为该分类的概率. 熵,即信息
python决策树之C4.5算法详解

本文为大家分享了决策树之C4.5算法,供大家参考,具体内容如下 1. C4.5算法简介 C4.5算法是用于生成决策树的一种经典算法,是ID3算法的一种延伸和优化.C4.5算法对ID3算法主要做了一下几点改进: (1)通过信息增益率选择分裂属性,克服了ID3算法中通过信息增益倾向于选择拥有多个属性值的属性作为分裂属性的不足: (2)能够处理离散型和连续型的属性类型,即将连续型的属性进行离散化处理: (3)构造决策树之后进行剪枝操作: (4)能够处理具有缺失属性值的训练数据. 2
决策树的python实现方法

本文实例讲述了决策树的python实现方法.分享给大家供大家参考.具体实现方法如下: 决策树算法优缺点: 优点:计算复杂度不高,输出结果易于理解,对中间值缺失不敏感,可以处理不相关的特征数据缺点:可能会产生过度匹配的问题适用数据类型:数值型和标称型算法思想: 1.决策树构造的整体思想: 决策树说白了就好像是if-else结构一样,它的结果就是你要生成这个一个可以从根开始不断判断选择到叶子节点的树,但是呢这里的if-else必然不会是让我们认为去设置的,我们要做的是提供一种方法,计算机可以根
基于ID3决策树算法的实现(Python版)

实例如下: # -*- coding:utf-8 -*- from numpy import * import numpy as np import pandas as pd from math import log import operator #计算数据集的香农熵 def calcShannonEnt(dataSet): numEntries=len(dataSet) labelCounts={} #给所有可能分类创建字典 for featVec in dataSet: currentLa
python代码实现ID3决策树算法

本文实例为大家分享了python实现ID3决策树算法的具体代码,供大家参考,具体内容如下 ''''' Created on Jan 30, 2015 @author: 史帅 ''' from math import log import operator import re def fileToDataSet(fileName): ''''' 此方法功能是:从文件中读取样本集数据,样本数据的格式为:数据以空白字符分割,最后一列为类标签参数: fileName:存放样本集数据的文件路径返回值:
python实现决策树C4.5算法详解(在ID3基础上改进)

一.概论 C4.5主要是在ID3的基础上改进,ID3选择(属性)树节点是选择信息增益值最大的属性作为节点.而C4.5引入了新概念"信息增益率",C4.5是选择信息增益率最大的属性作为树节点. 二.信息增益以上公式是求信息增益率(ID3的知识点) 三.信息增益率信息增益率是在求出信息增益值在除以. 例如下面公式为求属性为"outlook"的值: 四.C4.5的完整代码 from numpy import * from scipy import * from mat
机器学习python实战之决策树

决策树原理:从数据集中找出决定性的特征对数据集进行迭代划分,直到某个分支下的数据都属于同一类型,或者已经遍历了所有划分数据集的特征,停止决策树算法. 每次划分数据集的特征都有很多,那么我们怎么来选择到底根据哪一个特征划分数据集呢?这里我们需要引入信息增益和信息熵的概念. 一.信息增益划分数据集的原则是:将无序的数据变的有序.在划分数据集之前之后信息发生的变化称为信息增益.知道如何计算信息增益,我们就可以计算根据每个特征划分数据集获得的信息增益,选择信息增益最高的特征就是最好的选择.首先我们先来
python机器学习之决策树分类详解

决策树分类与上一篇博客k近邻分类的最大的区别就在于,k近邻是没有训练过程的,而决策树是通过对训练数据进行分析,从而构造决策树,通过决策树来对测试数据进行分类,同样是属于监督学习的范畴.决策树的结果类似如下图: 图中方形方框代表叶节点,带圆边的方框代表决策节点,决策节点与叶节点的不同之处就是决策节点还需要通过判断该节点的状态来进一步分类. 那么如何通过训练数据来得到这样的决策树呢? 这里涉及要信息论中一个很重要的信息度量方式,香农熵.通过香农熵可以计算信息增益. 香农熵的计算公式如下: p(xi)
Python sklearn分类决策树方法详解

目录决策树模型决策树学习使用Scikit-learn进行决策树分类决策树模型决策树(decision tree)是一种基本的分类与回归方法. 分类决策树模型是一种描述对实例进行分类的树形结构.决策树由结点(node)和有向边(directed edge)组成.结点有两种类型:内部结点(internal node)和叶结点(leaf node).内部结点表示一个特征或属性,叶结点表示一个类. 用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子
Python利用三层神经网络实现手写数字分类详解

目录前言一.神经网络组成二.代码实现 1.引入库 2.导入数据集 3.全连接层 4.ReLU激活函数层 5.Softmax损失层 6.网络训练与推断模块三.代码debug 四.结果展示补充前言本文做的是基于三层神经网络实现手写数字分类,神经网络设计是设计复杂深度学习算法应用的基础,本文将介绍如何设计一个三层神经网络模型来实现手写数字分类.首先介绍如何利用高级编程语言Python搭建神经网络训练和推断框架来实现手写数字分类的训练和使用. 本文实验文档下载一.神经网络组成一个完整的
python模块之re正则表达式详解

一.简单介绍正则表达式是一种小型的.高度专业化的编程语言,并不是python中特有的,是许多编程语言中基础而又重要的一部分.在python中,主要通过re模块来实现. 正则表达式模式被编译成一系列的字节码,然后由用c编写的匹配引擎执行.那么正则表达式通常有哪些使用场景呢? 比如为想要匹配的相应字符串集指定规则: 该字符串集可以是包含e-mail地址.Internet地址.电话号码,或是根据需求自定义的一些字符串集: 当然也可以去判断一个字符串集是否符合我们定义的匹配规则: 找到字符串中匹配该规
Python机器学习之决策树

一.要求二.原理决策树是一种类似于流程图的结构,其中每个内部节点代表一个属性上的"测试",每个分支代表测试的结果,每个叶节点代表一个测试结果.类标签(在计算所有属性后做出的决定).从根到叶的路径代表分类规则. 决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树.因此如何构建决策树,是后续预测的关键!而构建决策树,就需要确定类标签判断的先后,其决定了构建的决策树的性能.决策树的分支节点应该尽可能的属于同一类别,即节点的"纯度"要越来越高,只有这
Python机器学习之决策树和随机森林

目录什么是决策树决策树组成节点的确定方法决策树基本流程决策树的常用参数代码实现决策树之分类树网格搜索在分类树上的应用分类树在合成数据的表现什么是随机森林随机森林的原理随机森林常用参数决策树和随机森林效果实例用随机森林对乳腺癌数据的调参什么是决策树决策树属于经典的十大数据挖掘算法之一,是通过类似于流程图的数形结构,其规则就是iIF-THEN-的思想.,可以用于数值型因变量的预测或离散型因变量的分类,该算法简单直观,通俗易懂,不需要研究者掌握任何领域的知识或者复杂的数学
最强Python可视化绘图库Plotly详解用法

今天给大家分享一篇可视化干货,介绍的是功能强大的开源 Python 绘图库 Plotly,教你如何用超简单的(甚至只要一行)代码,绘制出更棒的图表. 我之前一直使用 matplotlib ,由于它复杂的语法,我已经"沉没"在里面太多的时间成本.这也导致我花费了不知多少个深夜,在 StackOverflow 上搜索如何"格式化日期"或"增加第二个Y轴". 但我们现在有一个更好的选择了 ,比如易于使用.文档健全.功能强大的开源 Python 绘图库
python机器学习基础决策树与随机森林概率论

目录一.决策树原理概述 1.决策树原理 2.信息论 ①信息熵 ②决策树的分类依据 ③其他决策树使用的算法 ④决策树API 二.决策树算法案例 1.案例概述 2.数据处理 3.特征工程 4.使用决策树进行预测 5.决策树优缺点及改进三.随机森林 1.集成学习方法 2.单个树建立过程 3.随机森林API 4.随机森林使用案例 5.随机森林的优点一.决策树原理概述 1.决策树原理决策树的分类原理,相当于程序中的if-then结构,通过条件判断,来决定结果. 2.信息论 ①信息熵假设有32支球
通过numba模块给Python代码提速的方法详解

简介:numba是Anaconda公司开发的针对Python的开源JIT编译器,用于提供Python版CPU和GPU编程,速度比原生Python快数十倍.numba是第三方库,可以在运行时将Python代码编译为本地机器指令,而不会强制大幅度的改变普通的Python代码,使得在部分场景下执行Python的效率得到飞速的提升. 工作原理对比: Python文件执行过程 1..py文件通过解释器转化为虚拟机可以执行的字节码(.pyc):字节码在虚拟机上执行,得到结果. 2.字节码是一种只能运行在虚拟
Python实现聚类K-means算法详解

目录手动实现 sklearn库中的KMeans K-means(K均值)算法是最简单的一种聚类算法,它期望最小化平方误差注:为避免运行时间过长,通常设置一个最大运行轮数或最小调整幅度阈值,若到达最大轮数或调整幅度小于阈值,则停止运行. 下面我们用python来实现一下K-means算法:我们先尝试手动实现这个算法,再用sklearn库中的KMeans类来实现.数据我们采用<机器学习>的西瓜数据(P202表9.1): # 下面的内容保存在 melons.txt 中 # 第一列为西瓜的密度:第

python机器学习之决策树分类详解

相关推荐

随机推荐