python代码实现ID3决策树算法

本文实例为大家分享了python实现ID3决策树算法的具体代码,供大家参考,具体内容如下

'''''
Created on Jan 30, 2015 

@author: 史帅
''' 

from math import log
import operator
import re 

def fileToDataSet(fileName):
  '''''
  此方法功能是:从文件中读取样本集数据,样本数据的格式为:数据以空白字符分割,最后一列为类标签 

    参数:
      fileName:存放样本集数据的文件路径 

    返回值:
      dataSet:样本集数据组成的二维数组
  '''
  file=open(fileName, mode='r')
  lines=file.readlines()
  dataSet=[]
  index=0
  p=re.compile(r"\s+")
  for line in lines:
    line=p.split(line.strip())
    dataSet.append(line)
    index+=1
  return dataSet 

def calculateShannonEntropy(dataSet):
  '''''
  此方法功能是:计算样本集数据类别的信息熵,样本数据的格式为二维数组 

    参数:
      dataSet:样本集数据组成的二维数组 

    返回值:
      shannonEntropy:样本集数据类别的信息熵
  '''
  dataCount=len(dataSet)
  classCountDic={}
  for data in dataSet:
    label=data[-1]
    if label not in classCountDic.keys():
      classCountDic[label]=0
    classCountDic[label]+=1
  shannonEntropy=0.0
  for key in classCountDic:
    prob=float(classCountDic[key])/dataCount
    shannonEntropy-=prob*log(prob,2)
  return shannonEntropy 

def splitDataSet(dataSet,axis,value):
  '''''
  此方法功能是:对样本集数据按照某一特征进行分割,使得分割后的数据集中该特征的值全部等于同一个值,并且将分割后的数据中该特征列去除 

    参数:
      dataSet:待分割的样本集数据,二维数组
      axis:特征所在样本集数据列中的位置
      value:样本集数据分割后该特征的值 

    返回值:
      splitedDataSet:按照所在位置为axis的特征进行分割,并且该特征值为value的样本集数据的子集
  '''
  splitedDataSet=[]
  for data in dataSet:
    if data[axis]==value:
      splitedData=data[:axis]
      splitedData.extend(data[axis+1:])
      splitedDataSet.append(splitedData)
  return splitedDataSet 

def chooseBestFeatureToSlipt(dataSet):
  '''''
  此方法功能是:分别计算整个样本集数据的信息熵与按照各个特征分割后的数据集的信息熵之差,得到使差值最大的分割方案,得到该分割方案的特征 

    参数:
      dataSet:待分割的样本集数据,二维数组 

    返回值:
      bestFeature:按照分割前后信息熵差值最大的分割方案得到的特征,返回此特征所在样本集数据列中的位置
  '''
  bestFeature=-1
  dataSetShannonEntropy=calculateShannonEntropy(dataSet)
  infoGain=0
  featureCount=len(dataSet[0])-1
  for i in range(featureCount):
    featureList=[example[i] for example in dataSet]
    featureSet=set(featureList)
    splitedDataSetShannonEntropy=0
    for feature in featureSet:
      splitedDataSet=splitDataSet(dataSet,i,feature)
      splitedDataSetShannonEntropy+=float(len(splitedDataSet))/len(dataSet)*calculateShannonEntropy(splitedDataSet)
    if dataSetShannonEntropy-splitedDataSetShannonEntropy>infoGain:
      infoGain=dataSetShannonEntropy-splitedDataSetShannonEntropy
      bestFeature=i
  return bestFeature 

def majorityClass(classList):
  '''''
  此方法功能是:从类别列表中得到个数最多的类别 

    参数:
      classList:类别列表,一维数组 

    返回值:
      类别列表中个数最多的类别
  '''
  classCountDic={}
  for label in classList:
    if label not in classCountDic.keys():
      classCountDic[label]=0
    classCountDic[label]+=1
  classCountDic=sorted(classCountDic.item(),key=operator.itemgetter(1),reverse=True)
  return classCountDic[0][0] 

def createTree(dataSet,features):
  '''''
  此方法功能是:根据训练样本集数据创建对分类最有效的决策树 

    参数:
      dataSet:训练样本集数据,二维数组
      features:与训练样本集数据中各列的特征值相对应的特征名称集合,一维数组 

    返回值:
      tree:根据训练样本集数据所创建的,对分类最有效的决策树
  '''
  subFeatures=features[:]
  classList=[example[-1] for example in dataSet]
  if classList.count(classList[0])==len(classList):
    return classList[0]
  if len(dataSet[0])==1:
    return majorityClass(classList)
  bestFeature=chooseBestFeatureToSlipt(dataSet)
  label=subFeatures[bestFeature]
  tree={label:{}}
  del(subFeatures[bestFeature])
  featureList=[example[bestFeature] for example in dataSet]
  featureSet=set(featureList)
  for feature in featureSet:
    splitedDataSet=splitDataSet(dataSet,bestFeature,feature)
    tree[label][feature]=createTree(splitedDataSet, subFeatures)
  return tree 

def classify(inX,tree,features):
  '''''
  此方法功能是:根据创建好的决策树,对特定的数据进行分类 

    参数:
      inX:待分类的数据,特征值向量,一维数组
      tree:根据决策树算法创建好的最有效的决策树
      features:与训练样本集数据中各列的特征值相对应的特征名称集合,一维数组 

    返回值:
      label:待分类的数据通过决策树分类之后的类别
  '''
  feature=list(tree.keys())[0]
  featureIndex=features.index(feature)
  secondTree=tree[feature][inX[featureIndex]]
  if type(secondTree).__name__=="dict":
    label=classify(inX,secondTree,features)
  else:
    label=secondTree
  return label 

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

(0)

相关推荐

  • python机器学习之决策树分类详解

    决策树分类与上一篇博客k近邻分类的最大的区别就在于,k近邻是没有训练过程的,而决策树是通过对训练数据进行分析,从而构造决策树,通过决策树来对测试数据进行分类,同样是属于监督学习的范畴.决策树的结果类似如下图: 图中方形方框代表叶节点,带圆边的方框代表决策节点,决策节点与叶节点的不同之处就是决策节点还需要通过判断该节点的状态来进一步分类. 那么如何通过训练数据来得到这样的决策树呢? 这里涉及要信息论中一个很重要的信息度量方式,香农熵.通过香农熵可以计算信息增益. 香农熵的计算公式如下: p(xi)

  • python决策树之CART分类回归树详解

    决策树之CART(分类回归树)详解,具体内容如下 1.CART分类回归树简介   CART分类回归树是一种典型的二叉决策树,可以处理连续型变量和离散型变量.如果待预测分类是离散型数据,则CART生成分类决策树:如果待预测分类是连续型数据,则CART生成回归决策树.数据对象的条件属性为离散型或连续型,并不是区别分类树与回归树的标准,例如表1中,数据对象xi的属性A.B为离散型或连续型,并是不区别分类树与回归树的标准. 表1 2.CART分类回归树分裂属性的选择   2.1 CART分类树--待预测

  • 决策树的python实现方法

    本文实例讲述了决策树的python实现方法.分享给大家供大家参考.具体实现方法如下: 决策树算法优缺点: 优点:计算复杂度不高,输出结果易于理解,对中间值缺失不敏感,可以处理不相关的特征数据 缺点:可能会产生过度匹配的问题 适用数据类型:数值型和标称型 算法思想: 1.决策树构造的整体思想: 决策树说白了就好像是if-else结构一样,它的结果就是你要生成这个一个可以从根开始不断判断选择到叶子节点的树,但是呢这里的if-else必然不会是让我们认为去设置的,我们要做的是提供一种方法,计算机可以根

  • python决策树之C4.5算法详解

    本文为大家分享了决策树之C4.5算法,供大家参考,具体内容如下 1. C4.5算法简介   C4.5算法是用于生成决策树的一种经典算法,是ID3算法的一种延伸和优化.C4.5算法对ID3算法主要做了一下几点改进:   (1)通过信息增益率选择分裂属性,克服了ID3算法中通过信息增益倾向于选择拥有多个属性值的属性作为分裂属性的不足:   (2)能够处理离散型和连续型的属性类型,即将连续型的属性进行离散化处理:   (3)构造决策树之后进行剪枝操作:   (4)能够处理具有缺失属性值的训练数据. 2

  • python实现决策树C4.5算法详解(在ID3基础上改进)

    一.概论 C4.5主要是在ID3的基础上改进,ID3选择(属性)树节点是选择信息增益值最大的属性作为节点.而C4.5引入了新概念"信息增益率",C4.5是选择信息增益率最大的属性作为树节点. 二.信息增益 以上公式是求信息增益率(ID3的知识点) 三.信息增益率 信息增益率是在求出信息增益值在除以. 例如下面公式为求属性为"outlook"的值: 四.C4.5的完整代码 from numpy import * from scipy import * from mat

  • 机器学习python实战之决策树

    决策树原理:从数据集中找出决定性的特征对数据集进行迭代划分,直到某个分支下的数据都属于同一类型,或者已经遍历了所有划分数据集的特征,停止决策树算法. 每次划分数据集的特征都有很多,那么我们怎么来选择到底根据哪一个特征划分数据集呢?这里我们需要引入信息增益和信息熵的概念. 一.信息增益 划分数据集的原则是:将无序的数据变的有序.在划分数据集之前之后信息发生的变化称为信息增益.知道如何计算信息增益,我们就可以计算根据每个特征划分数据集获得的信息增益,选择信息增益最高的特征就是最好的选择.首先我们先来

  • python编写分类决策树的代码

    决策树通常在机器学习中用于分类. 优点:计算复杂度不高,输出结果易于理解,对中间值缺失不敏感,可以处理不相关特征数据. 缺点:可能会产生过度匹配问题. 适用数据类型:数值型和标称型. 1.信息增益 划分数据集的目的是:将无序的数据变得更加有序.组织杂乱无章数据的一种方法就是使用信息论度量信息.通常采用信息增益,信息增益是指数据划分前后信息熵的减少值.信息越无序信息熵越大,获得信息增益最高的特征就是最好的选择. 熵定义为信息的期望,符号xi的信息定义为: 其中p(xi)为该分类的概率. 熵,即信息

  • Python机器学习之决策树算法实例详解

    本文实例讲述了Python机器学习之决策树算法.分享给大家供大家参考,具体如下: 决策树学习是应用最广泛的归纳推理算法之一,是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一棵决策树.决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,机器学习算法最终将使用这些从数据集中创造的规则.决策树的优点为:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据.缺点为:可能产生过度匹配的问题.决策树适于处理离散型和连续型的数据. 在决策树中最重要的就是如何选取

  • 基于ID3决策树算法的实现(Python版)

    实例如下: # -*- coding:utf-8 -*- from numpy import * import numpy as np import pandas as pd from math import log import operator #计算数据集的香农熵 def calcShannonEnt(dataSet): numEntries=len(dataSet) labelCounts={} #给所有可能分类创建字典 for featVec in dataSet: currentLa

  • python代码实现ID3决策树算法

    本文实例为大家分享了python实现ID3决策树算法的具体代码,供大家参考,具体内容如下 ''''' Created on Jan 30, 2015 @author: 史帅 ''' from math import log import operator import re def fileToDataSet(fileName): ''''' 此方法功能是:从文件中读取样本集数据,样本数据的格式为:数据以空白字符分割,最后一列为类标签 参数: fileName:存放样本集数据的文件路径 返回值:

  • python实现ID3决策树算法

    ID3决策树是以信息增益作为决策标准的一种贪心决策树算法 # -*- coding: utf-8 -*- from numpy import * import math import copy import cPickle as pickle class ID3DTree(object): def __init__(self): # 构造方法 self.tree = {} # 生成树 self.dataSet = [] # 数据集 self.labels = [] # 标签集 # 数据导入函数

  • python实现C4.5决策树算法

    C4.5算法使用信息增益率来代替ID3的信息增益进行特征的选择,克服了信息增益选择特征时偏向于特征值个数较多的不足.信息增益率的定义如下: # -*- coding: utf-8 -*- from numpy import * import math import copy import cPickle as pickle class C45DTree(object): def __init__(self): # 构造方法 self.tree = {} # 生成树 self.dataSet =

  • Python机器学习之决策树算法

    一.决策树原理 决策树是用样本的属性作为结点,用属性的取值作为分支的树结构. 决策树的根结点是所有样本中信息量最大的属性.树的中间结点是该结点为根的子树所包含的样本子集中信息量最大的属性.决策树的叶结点是样本的类别值.决策树是一种知识表示形式,它是对所有样本数据的高度概括决策树能准确地识别所有样本的类别,也能有效地识别新样本的类别. 决策树算法ID3的基本思想: 首先找出最有判别力的属性,把样例分成多个子集,每个子集又选择最有判别力的属性进行划分,一直进行到所有子集仅包含同一类型的数据为止.最后

  • Python实现CART决策树算法及详细注释

    目录 一.CART决策树算法简介 二.基尼系数 三.CART决策树生成算法 四.CART算法的Python实现 五.运行结果 一.CART决策树算法简介 CART(Classification And Regression Trees 分类回归树)算法是一种树构建算法,既可以用于分类任务,又可以用于回归.相比于 ID3 和 C4.5 只能用于离散型数据且只能用于分类任务,CART 算法的适用面要广得多,既可用于离散型数据,又可以处理连续型数据,并且分类和回归任务都能处理. 本文仅讨论基本的CAR

  • Python机器学习应用之基于决策树算法的分类预测篇

    目录 一.决策树的特点 1.优点 2.缺点 二.决策树的适用场景 三.demo 一.决策树的特点 1.优点 具有很好的解释性,模型可以生成可以理解的规则. 可以发现特征的重要程度. 模型的计算复杂度较低. 2.缺点 模型容易过拟合,需要采用减枝技术处理. 不能很好利用连续型特征. 预测能力有限,无法达到其他强监督模型效果. 方差较高,数据分布的轻微改变很容易造成树结构完全不同. 二.决策树的适用场景 决策树模型多用于处理自变量与因变量是非线性的关系. 梯度提升树(GBDT),XGBoost以及L

  • 基于Python实现的ID3决策树功能示例

    本文实例讲述了基于Python实现的ID3决策树功能.分享给大家供大家参考,具体如下: ID3算法是决策树的一种,它是基于奥卡姆剃刀原理的,即用尽量用较少的东西做更多的事.ID3算法,即Iterative Dichotomiser 3,迭代二叉树3代,是Ross Quinlan发明的一种决策树算法,这个算法的基础就是上面提到的奥卡姆剃刀原理,越是小型的决策树越优于大的决策树,尽管如此,也不总是生成最小的树型结构,而是一个启发式算法. 如下示例是一个判断海洋生物数据是否是鱼类而构建的基于ID3思想

  • 以Python代码实例展示kNN算法的实际运用

    邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一.所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表. kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性.该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别. kNN方法在类别决策时,只与极少量的相邻样本有关.由于kNN方法主

  • Java实现的决策树算法完整实例

    本文实例讲述了Java实现的决策树算法.分享给大家供大家参考,具体如下: 决策树算法是一种逼近离散函数值的方法.它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析.本质上决策树是通过一系列规则对数据进行分类的过程. 决策树构造可以分两步进行.第一步,决策树的生成:由训练样本集生成决策树的过程.一般情况下,训练样本数据集是根据实际需要有历史的.有一定综合程度的,用于数据分析处理的数据集.第二步,决策树的剪枝:决策树的剪枝是对上一阶段生成的决

随机推荐