python机器学习朴素贝叶斯算法及模型的选择和调优详解

目录
  • 一、概率知识基础
    • 1.概率
    • 2.联合概率
    • 3.条件概率
  • 二、朴素贝叶斯
    • 1.朴素贝叶斯计算方式
    • 2.拉普拉斯平滑
    • 3.朴素贝叶斯API
  • 三、朴素贝叶斯算法案例
    • 1.案例概述
    • 2.数据获取
    • 3.数据处理
    • 4.算法流程
    • 5.注意事项
  • 四、分类模型的评估
    • 1.混淆矩阵
    • 2.评估模型API
    • 3.模型选择与调优
      • ①交叉验证
      • ②网格搜索
  • 五、以knn为例的模型调优使用方法
    • 1.对超参数进行构造
    • 2.进行网格搜索
    • 3.结果查看

一、概率知识基础

1.概率

概率就是某件事情发生的可能性。

2.联合概率

包含多个条件,并且所有条件同时成立的概率,记作:P(A, B) = P(A) * P(B)

3.条件概率

事件A在另外一个事件B已经发生的条件下的发生概率,记作:P(A|B)

条件概率的特性:P(A1,A2|B) = P(A1|B)P(A2|B)

注意:此条件概率的成立,是由于A1,A2相互独立的结果

朴素贝叶斯的原理就是,对于每一个样本,算出属于每一个类别的概率,归为概率最高的那一类。

二、朴素贝叶斯

1.朴素贝叶斯计算方式

直接代入实际例子,各部分解释如下:

P(C) = P(科技):科技文档类别的概率(科技文档数 / 总文档数)

P(W|C) = P(‘智能',‘发展'|科技):在科技文档这一类文章中,‘智能'与‘发展'这两个特征词出现的概率。注意:‘智能',‘发展'属于被预测文档中出现的词,科技文档中可能会有更多特征词,但给定的文档并不一定全部包含。因此,给定的文档包含了哪些,就使用哪些。

计算方法:

P(F1|C) = N(i)/N (训练集中计算)

N(i)是该F1词在C类别所有文档中出现的次数

N为所属类别C下的文档所有词出现的次数和

P(‘智能'|科技) = ‘智能'在所有科技类文档中出现的次数 / 科技类文档下所有出现的词次数和

则P(F1,F2...|C) = P(F1|C) * P(F2|C)

P(‘智能',‘发展'|科技) = P(‘智能'|科技) * P(‘发展'|科技)

这样就可以计算出基于被预测文档中的特征词,被预测文档属于科技的概率。同样的方法计算其他类型的概率。哪个高就算哪个。

2.拉普拉斯平滑

3.朴素贝叶斯API

sklearn.naive_bayes.MultinomialNB

三、朴素贝叶斯算法案例

1.案例概述

本案例的数据是来自于sklearn中的20newsgroups数据,通过提取文章中的特征词,使用朴素贝叶斯方法,对被预测文章进行计算,通过得出的概率来确定文章属于哪一类。

大致步骤如下:首先将文章分成两类,一类作为训练集,一类作为测试集。接下来使用tfidf分别对训练集以及测试集文章进行特征抽取,这样就生成了训练集测试集的x,接下来可以直接调用朴素贝叶斯算法,将训练集数据x_train, y_train导入进去,训练模型。最后使用训练好的模型来测试即可。

2.数据获取

导入数据库:import sklearn.datasets as dt

导入数据:news = dt.fetch_20newsgroups(subset='all')

3.数据处理

分割使用的方法和knn中的一样。另外,从sklearn中导入的数据,都可以直接调用 .data获取数据集,调用.target获取目标值。

分割数据:x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25)

特征值提取方法实例化:tf = TfIdfVectorizer()

训练集数据特征值提取:x_train = tf.fit_transform(x_train)

测试集数据特征值提取:x_test = tf.transform(x_test)

测试集的特征提取,只需要调用transform,因为要使用训练集的标准,并且在上一步已经fit过得出训练集的标准了,测试集直接使用就行。

4.算法流程

算法实例化:mlt = MultinomialNB(alpha=1.0)

算法训练:mlt.fit(x_train, y_train)

预测结果:y_predict = mlt.predict(x_test)

5.注意事项

朴素贝叶斯算法的准确率,是由训练集来决定的,不需要调参。训练集误差大,结果肯定不好。因为算的方式固定,并且没有一个超参数可供调整。

朴素贝叶斯的缺点:假设了文档中一些词和另外一些词是独立的,相互没联系。并且是在训练集中进行的词统计,会对结果造成干扰,训练集越好,结果越好,训练集越差,结果越差。

四、分类模型的评估

1.混淆矩阵

评估标准有数种,其一是准确率,也就是对预测的目标值和提供的目标值一一对比,计算准确率。

我们也有其他更通用也更好用的评估标准,即精确率和召回率。精确率和召回率是基于混淆矩阵计算的。

一般情况下我们只关注召回率。

F1分类标准:

根据以上式子,使用精确率召回率,可计算出F1-score,该结果可反应模型的稳健性。

2.评估模型API

sklearn.metricx.classification_report

3.模型选择与调优

①交叉验证

交叉验证是为了让被评估的模型更加准确可信,方法如下:

>>将所有数据分成n等份

>>第一份作为验证集,其他作为训练集,得出一个准确率,模型1

>>第二份作为验证集,其他作为训练集,得出一个准确率,模型2

>>......

>>直到每一份都过一遍,得出n个模型的准确率

>>对所有的准确率求平均值,我们就得到了最终更为可信的结果。

若分为四等分,则叫做“4折交叉验证”。

②网格搜索

网格搜索主要是和交叉验证同时使用,用来调参数。比如K-近邻算法中有超参数k,需要手动指定,比较复杂,所以需要对模型预设几种超参数组合,每组超参数都采用交叉验证来进行评估,最后选出最优的参数组合建立模型。(K-近邻算法就一个超参数k,谈不上组合,但是如果算法有2个或以上超参数,就进行组合,相当于穷举法)

网格搜索API:sklearn.model_selection.GridSearchCV

五、以knn为例的模型调优使用方法

假设已经将数据以及特征处理好,并且得到了x_train, x_test, y_train, y_test,并且已经将算法实例化:knn = KNeighborsClassifier()

1.对超参数进行构造

因为算法中需要用到的超参数的名字就叫做'n_neighbors',所以直接按名字指定超参数选择范围。若有第二个超参数,在后面添加字典元素即可。

params = {'n_neighbors':[5,10,15,20,25]}

2.进行网格搜索

输入的参数:算法(估计器),网格参数,指定几折交叉验证

gc = GridSearchCV(knn, param_grid=params, cv=5)

基本信息指定好后,就可以把训练集数据fit进去

gc.fit(x_train, y_train)

3.结果查看

网格搜索算法中,有数种方法可以查看准确率、模型、交叉验证结果、每一次交叉验证后的结果。

gc.score(x_test, y_test) 返回准确率

gc.best_score_ 返回最高的准确率

gc.best_estimator_ 返回最好的估计器(返回的时候会自动带上所选择的超参数)

以上就是python机器学习朴素贝叶斯及模型的选择和调优详解的详细内容,更多关于朴素贝叶斯及模型的选择和调优的资料请关注我们其它相关文章!

(0)

相关推荐

  • 基于Python和Scikit-Learn的机器学习探索

    你好,%用户名%! 我叫Alex,我在机器学习和网络图分析(主要是理论)有所涉猎.我同时在为一家俄罗斯移动运营商开发大数据产品.这是我第一次在网上写文章,不喜勿喷. 现在,很多人想开发高效的算法以及参加机器学习的竞赛.所以他们过来问我:"该如何开始?".一段时间以前,我在一个俄罗斯联邦政府的下属机构中领导了媒体和社交网络大数据分析工具的开发.我仍然有一些我团队使用过的文档,我乐意与你们分享.前提是读者已经有很好的数学和机器学习方面的知识(我的团队主要由MIPT(莫斯科物理与技术大学)和

  • python机器学习基础K近邻算法详解KNN

    目录 一.k-近邻算法原理及API 1.k-近邻算法原理 2.k-近邻算法API 3.k-近邻算法特点 二.k-近邻算法案例分析案例信息概述 第一部分:处理数据 1.数据量缩小 2.处理时间 3.进一步处理时间 4.提取并构造时间特征 5.删除无用特征 6.签到数量少于3次的地点,删除 7.提取目标值y 8.数据分割 第二部分:特征工程 标准化 第三部分:进行算法流程 1.算法执行 2.预测结果 3.检验效果 一.k-近邻算法原理及API 1.k-近邻算法原理 如果一个样本在特征空间中的k个最相

  • python机器学习基础特征工程算法详解

    目录 一.机器学习概述 二.数据集的构成 1.数据集存储 2.可用的数据集 3.常用数据集的结构 三.特征工程 1.字典数据特征抽取 2.文本特征抽取 3.文本特征抽取:tf-idf 4.特征预处理:归一化 5.特征预处理:标准化 6.特征预处理:缺失值处理 一.机器学习概述 机器学习是从数据中,自动分析获得规律(模型),并利用规律对未知数据进行预测. 二.数据集的构成 1.数据集存储 机器学习的历史数据通常使用csv文件存储. 不用mysql的原因: 1.文件大的话读取速度慢: 2.格式不符合

  • jquery.AutoComplete.js中文修正版(支持firefox)

    复制代码 代码如下: jQuery.autocomplete = function(input, options) { // Create a link to self var me = this; // Create jQuery object for input element var $input = $(input).attr("autocomplete", "off"); // Apply inputClass if necessary if (optio

  • python机器学习算法与数据降维分析详解

    目录 一.数据降维 1.特征选择 2.主成分分析(PCA) 3.降维方法使用流程 二.机器学习开发流程 1.机器学习算法分类 2.机器学习开发流程 三.转换器与估计器 1.转换器 2.估计器 一.数据降维 机器学习中的维度就是特征的数量,降维即减少特征数量.降维方式有:特征选择.主成分分析. 1.特征选择 当出现以下情况时,可选择该方式降维: ①冗余:部分特征的相关度高,容易消耗计算性能 ②噪声:部分特征对预测结果有影响 特征选择主要方法:过滤式(VarianceThreshold).嵌入式(正

  • python机器学习基础决策树与随机森林概率论

    目录 一.决策树原理概述 1.决策树原理 2.信息论 ①信息熵 ②决策树的分类依据 ③其他决策树使用的算法 ④决策树API 二.决策树算法案例 1.案例概述 2.数据处理 3.特征工程 4.使用决策树进行预测 5.决策树优缺点及改进 三.随机森林 1.集成学习方法 2.单个树建立过程 3.随机森林API 4.随机森林使用案例 5.随机森林的优点 一.决策树原理概述 1.决策树原理 决策树的分类原理,相当于程序中的if-then结构,通过条件判断,来决定结果. 2.信息论 ①信息熵 假设有32支球

  • python机器学习朴素贝叶斯算法及模型的选择和调优详解

    目录 一.概率知识基础 1.概率 2.联合概率 3.条件概率 二.朴素贝叶斯 1.朴素贝叶斯计算方式 2.拉普拉斯平滑 3.朴素贝叶斯API 三.朴素贝叶斯算法案例 1.案例概述 2.数据获取 3.数据处理 4.算法流程 5.注意事项 四.分类模型的评估 1.混淆矩阵 2.评估模型API 3.模型选择与调优 ①交叉验证 ②网格搜索 五.以knn为例的模型调优使用方法 1.对超参数进行构造 2.进行网格搜索 3.结果查看 一.概率知识基础 1.概率 概率就是某件事情发生的可能性. 2.联合概率 包

  • python 实现朴素贝叶斯算法的示例

    特点 这是分类算法贝叶斯算法的较为简单的一种,整个贝叶斯分类算法的核心就是在求解贝叶斯方程P(y|x)=[P(x|y)P(y)]/P(x) 而朴素贝叶斯算法就是在牺牲一定准确率的情况下强制特征x满足独立条件,求解P(x|y)就更为方便了 但基本上现实生活中,没有任何关系的两个特征几乎是不存在的,故朴素贝叶斯不适合那些关系密切的特征 from collections import defaultdict import numpy as np from sklearn.datasets import

  • python实现朴素贝叶斯算法

    本代码实现了朴素贝叶斯分类器(假设了条件独立的版本),常用于垃圾邮件分类,进行了拉普拉斯平滑. 关于朴素贝叶斯算法原理可以参考博客中原理部分的博文. #!/usr/bin/python # -*- coding: utf-8 -*- from math import log from numpy import* import operator import matplotlib import matplotlib.pyplot as plt from os import listdir def

  • python 机器学习之实现朴素贝叶斯算法的示例

    特点 这是分类算法贝叶斯算法的较为简单的一种,整个贝叶斯分类算法的核心就是在求解贝叶斯方程P(y|x)=[P(x|y)P(y)]/P(x) 而朴素贝叶斯算法就是在牺牲一定准确率的情况下强制特征x满足独立条件,求解P(x|y)就更为方便了 但基本上现实生活中,没有任何关系的两个特征几乎是不存在的,故朴素贝叶斯不适合那些关系密切的特征 from collections import defaultdict import numpy as np from sklearn.datasets import

  • 朴素贝叶斯算法的python实现方法

    本文实例讲述了朴素贝叶斯算法的python实现方法.分享给大家供大家参考.具体实现方法如下: 朴素贝叶斯算法优缺点 优点:在数据较少的情况下依然有效,可以处理多类别问题 缺点:对输入数据的准备方式敏感 适用数据类型:标称型数据 算法思想: 比如我们想判断一个邮件是不是垃圾邮件,那么我们知道的是这个邮件中的词的分布,那么我们还要知道:垃圾邮件中某些词的出现是多少,就可以利用贝叶斯定理得到. 朴素贝叶斯分类器中的一个假设是:每个特征同等重要 函数 loadDataSet() 创建数据集,这里的数据集

  • Python实现的朴素贝叶斯算法经典示例【测试可用】

    本文实例讲述了Python实现的朴素贝叶斯算法.分享给大家供大家参考,具体如下: 代码主要参考机器学习实战那本书,发现最近老外的书确实比中国人写的好,由浅入深,代码通俗易懂,不多说上代码: #encoding:utf-8 ''''' Created on 2015年9月6日 @author: ZHOUMEIXU204 朴素贝叶斯实现过程 ''' #在该算法中类标签为1和0,如果是多标签稍微改动代码既可 import numpy as np path=u"D:\\Users\\zhoumeixu2

  • PHP实现机器学习之朴素贝叶斯算法详解

    本文实例讲述了PHP实现机器学习之朴素贝叶斯算法.分享给大家供大家参考,具体如下: 机器学习已经在我们的生活中变得随处可见了.比如从你在家的时候温控器开始工作到智能汽车以及我们口袋中的智能手机.机器学习看上去已经无处不在并且是一个非常值得探索的领域.但是什么是机器学习呢?通常来说,机器学习就是让系统不断的学习并且对新的问题进行预测.从简单的预测购物商品到复杂的数字助理预测. 在这篇文章我将会使用朴素贝叶斯算法Clasifier作为一个类来介绍.这是一个简单易于实施的算法,并且可给出满意的结果.但

  • python中如何使用朴素贝叶斯算法

    这里再重复一下标题为什么是"使用"而不是"实现": 首先,专业人士提供的算法比我们自己写的算法无论是效率还是正确率上都要高. 其次,对于数学不好的人来说,为了实现算法而去研究一堆公式是很痛苦的事情. 再次,除非他人提供的算法满足不了自己的需求,否则没必要"重复造轮子". 下面言归正传,不了解贝叶斯算法的可以去查一下相关资料,这里只是简单介绍一下: 1.贝叶斯公式: P(A|B)=P(AB)/P(B) 2.贝叶斯推断: P(A|B)=P(A)×P(

  • python实现朴素贝叶斯分类器

    本文用的是sciki-learn库的iris数据集进行测试.用的模型也是最简单的,就是用贝叶斯定理P(A|B) = P(B|A)*P(A)/P(B),计算每个类别在样本中概率(代码中是pLabel变量) 以及每个类下每个特征的概率(代码中是pNum变量). 写得比较粗糙,对于某个类下没有此特征的情况采用p=1/样本数量. 有什么错误有人发现麻烦提出,谢谢. [python] view plain copy # -*- coding:utf-8 -*- from numpy import * fr

  • Python通过朴素贝叶斯和LSTM分别实现新闻文本分类

    目录 一.项目背景 二.数据处理与分析 三.基于机器学习的文本分类–朴素贝叶斯 1. 模型介绍 2. 代码结构 3. 结果分析 四.基于深度学习的文本分类–LSTM 1. 模型介绍 2. 代码结构 3. 结果分析 五.小结 一.项目背景 本项目来源于天池⼤赛,利⽤机器学习和深度学习等知识,对新闻⽂本进⾏分类.⼀共有14个分类类别:财经.彩票.房产.股票.家居.教育.科技.社会.时尚.时政.体育.星座.游戏.娱乐. 最终将测试集的预测结果上传⾄⼤赛官⽹,可查看排名.评价标准为类别f1_score的

随机推荐