SVM基本概念及Python实现代码

2025-04-04 16:52:23

SVM（support vector machine）支持向量机：

注意：本文不准备提到数学证明的过程，一是因为有一篇非常好的文章解释的非常好：支持向量机通俗导论（理解SVM的三层境界），另一方面是因为我只是个程序员，不是搞数学的（主要是因为数学不好。），主要目的是将SVM以最通俗易懂，简单粗暴的方式解释清楚。

线性分类：

先从线性可分的数据讲起，如果需要分类的数据都是线性可分的，那么只需要一根直线f(x)=wx+b就可以分开了，类似这样：

这种方法被称为：线性分类器，一个线性分类器的学习目标便是要在n维的数据空间中找到一个超平面（hyper plane）。也就是说，数据不总是二维的，比如，三维的超平面是面。但是有个问题：

上述两种超平面，都可以将数据进行分类，由此可推出，其实能有无数个超平面能将数据划分，但是哪条最优呢？

最大间隔分类器Maximum Margin Classifier：

简称MMH，对一个数据点进行分类，当超平面离数据点的“间隔”越大，分类的确信度（confidence）也越大。所以，为了使得分类的确信度尽量高，需要让所选择的超平面能够最大化这个“间隔”值。这个间隔就是下图中的Gap的一半。

用以生成支持向量的点，如上图XO，被称为支持向量点，因此SVM有一个优点，就是即使有大量的数据，但是支持向量点是固定的，因此即使再次训练大量数据，这个超平面也可能不会变化。

非线性分类：

数据大多数情况都不可能是线性的，那如何分割非线性数据呢？

解决方法是将数据放到高维度上再进行分割，如下图：

当f(x)=x时，这组数据是个直线，如上半部分，但是当我把这组数据变为f(x)=x^2时，这组数据就变成了下半部分的样子，也就可以被红线所分割。

比如说，我这里有一组三维的数据X=（x1,x2,x3），线性不可分割，因此我需要将他转换到六维空间去。因此我们可以假设六个维度分别是：x1,x2,x3,x1^2,x1*x2,x1*x3，当然还能继续展开，但是六维的话这样就足够了。

新的决策超平面：d(Z)=WZ+b，解出W和b后带入方程，因此这组数据的超平面应该是：d(Z)=w1x1+w2x2+w3x3+w4*x1^2+w5x1x2+w6x1x3+b但是又有个新问题，转换高纬度一般是以内积（dot product）的方式进行的，但是内积的算法复杂度非常大。

核函数Kernel：

我们会经常遇到线性不可分的样例，此时，我们的常用做法是把样例特征映射到高维空间中去。但进一步，如果凡是遇到线性不可分的样例，一律映射到高维空间，那么这个维度大小是会高到可怕的，而且内积方式复杂度太大。此时，核函数就隆重登场了，核函数的价值在于它虽然也是讲特征进行从低维到高维的转换，但核函数绝就绝在它事先在低维上进行计算，而将实质上的分类效果表现在了高维上，也就如上文所说的避免了直接在高维空间中的复杂计算。

几种常用核函数：

h度多项式核函数（Polynomial Kernel of Degree h）

高斯径向基和函数（Gaussian radial basis function Kernel）

S型核函数（Sigmoid function Kernel）

图像分类，通常使用高斯径向基和函数，因为分类较为平滑，文字不适用高斯径向基和函数。没有标准的答案，可以尝试各种核函数，根据精确度判定。

松弛变量：

数据本身可能有噪点，会使得原本线性可分的数据需要映射到高维度去。对于这种偏离正常位置很远的数据点，我们称之为 outlier ，在我们原来的 SVM 模型里，outlier 的存在有可能造成很大的影响，因为超平面本身就是只有少数几个 support vector 组成的，如果这些 support vector 里又存在 outlier 的话，其影响就很大了。

因此排除outlier点，可以相应的提高模型准确率和避免Overfitting的方式。

解决多分类问题：

经典的SVM只给出了二类分类的算法，现实中数据可能需要解决多类的分类问题。因此可以多次运行SVM，产生多个超平面，如需要分类1-10种产品，首先找到1和2-10的超平面，再寻找2和1,3-10的超平面，以此类推，最后需要测试数据时，按照相应的距离或者分布判定。

SVM与其他机器学习算法对比(图)：

Python实现方式：

线性，基础：

from sklearn import svm 

x = [[2,0,1],[1,1,2],[2,3,3]]
y = [0,0,1] #分类标记
clf = svm.SVC(kernel = 'linear') #SVM模块，svc,线性核函数
clf.fit(x,y) 

print(clf) 

print(clf.support_vectors_) #支持向量点 

print(clf.support_) #支持向量点的索引 

print(clf.n_support_) #每个class有几个支持向量点 

print(clf.predict([2,0,3])) #预测

线性，展示图：

from sklearn import svm
import numpy as np
import matplotlib.pyplot as plt 

np.random.seed(0)
x = np.r_[np.random.randn(20,2)-[2,2],np.random.randn(20,2)+[2,2]] #正态分布来产生数字,20行2列*2
y = [0]*20+[1]*20 #20个class0，20个class1 

clf = svm.SVC(kernel='linear')
clf.fit(x,y) 

w = clf.coef_[0] #获取w
a = -w[0]/w[1] #斜率
#画图划线
xx = np.linspace(-5,5) #(-5,5)之间x的值
yy = a*xx-(clf.intercept_[0])/w[1] #xx带入y，截距 

#画出与点相切的线
b = clf.support_vectors_[0]
yy_down = a*xx+(b[1]-a*b[0])
b = clf.support_vectors_[-1]
yy_up = a*xx+(b[1]-a*b[0]) 

print("W:",w)
print("a:",a) 

print("support_vectors_:",clf.support_vectors_)
print("clf.coef_:",clf.coef_) 

plt.figure(figsize=(8,4))
plt.plot(xx,yy)
plt.plot(xx,yy_down)
plt.plot(xx,yy_up)
plt.scatter(clf.support_vectors_[:,0],clf.support_vectors_[:,1],s=80)
plt.scatter(x[:,0],x[:,1],c=y,cmap=plt.cm.Paired) #[:，0]列切片，第0列 

plt.axis('tight') 

plt.show()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

Python中使用支持向量机SVM实践

在机器学习领域,支持向量机SVM(Support Vector Machine)是一个有监督的学习模型,通常用来进行模式识别.分类(异常值检测)以及回归分析. 其具有以下特征: (1)SVM可以表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局最小值.而其他分类方法都采用一种基于贪心学习的策略来搜索假设空间,这种方法一般只能获得局部最优解. (2) SVM通过最大化决策边界的边缘来实现控制模型的能力.尽管如此,用户必须提供其他参数,如使用核函数类型和引入松弛变量等. (3)SVM一般
Python中使用支持向量机(SVM)算法

在机器学习领域,支持向量机SVM(Support Vector Machine)是一个有监督的学习模型,通常用来进行模式识别.分类(异常值检测)以及回归分析. 其具有以下特征: (1)SVM可以表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局最小值.而其他分类方法都采用一种基于贪心学习的策略来搜索假设空间,这种方法一般只能获得局部最优解. (2) SVM通过最大化决策边界的边缘来实现控制模型的能力.尽管如此,用户必须提供其他参数,如使用核函数类型和引入松弛变量等. (3)S
Python机器学习之SVM支持向量机

SVM支持向量机是建立于统计学习理论上的一种分类算法,适合与处理具备高维特征的数据集. SVM算法的数学原理相对比较复杂,好在由于SVM算法的研究与应用如此火爆,CSDN博客里也有大量的好文章对此进行分析,下面给出几个本人认为讲解的相当不错的: 支持向量机通俗导论(理解SVM的3层境界) JULY大牛讲的是如此详细,由浅入深层层推进,以至于关于SVM的原理,我一个字都不想写了..强烈推荐. 还有一个比较通俗的简单版本的:手把手教你实现SVM算法 SVN原理比较复杂,但是思想很简单,一句话概括,就
手把手教你python实现SVM算法

什么是机器学习 (Machine Learning) 机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能.它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域. 机器学习的大致分类: 1)分类(模式识别):要求系统依据已知的分类知识对输入的未知模式(该模式的描述)作分析,以确定输入模式的类属,例如手写识别(识别是不是这个数). 2)问题求解:要求对于给定的目标状态,寻找一个将当前状态转换为目标状态的动作序
Python中支持向量机SVM的使用方法详解

除了在Matlab中使用PRTools工具箱中的svm算法,Python中一样可以使用支持向量机做分类.因为Python中的sklearn库也集成了SVM算法,本文的运行环境是Pycharm. 一.导入sklearn算法包 Scikit-Learn库已经实现了所有基本机器学习的算法,具体使用详见官方文档说明 skleran中集成了许多算法,其导入包的方式如下所示, 逻辑回归:from sklearn.linear_model import LogisticRegression 朴素贝叶斯:fro
SVM基本概念及Python实现代码

SVM(support vector machine)支持向量机: 注意:本文不准备提到数学证明的过程,一是因为有一篇非常好的文章解释的非常好:支持向量机通俗导论(理解SVM的三层境界),另一方面是因为我只是个程序员,不是搞数学的(主要是因为数学不好.),主要目的是将SVM以最通俗易懂,简单粗暴的方式解释清楚. 线性分类: 先从线性可分的数据讲起,如果需要分类的数据都是线性可分的,那么只需要一根直线f(x)=wx+b就可以分开了,类似这样: 这种方法被称为:线性分类器,一个线性分类器的学习目标便
数据挖掘之Apriori算法详解和Python实现代码分享

关联规则挖掘(Association rule mining)是数据挖掘中最活跃的研究方法之一,可以用来发现事情之间的联系,最早是为了发现超市交易数据库中不同的商品之间的关系.(啤酒与尿布) 基本概念 1.支持度的定义:support(X-->Y) = |X交Y|/N=集合X与集合Y中的项在一条记录中同时出现的次数/数据记录的个数.例如:support({啤酒}-->{尿布}) = 啤酒和尿布同时出现的次数/数据记录数 = 3/5=60%. 2.自信度的定义:confidence(X-->
python快速排序代码实例

一. 算法描述: 1．先从数列中取出一个数作为基准数.2．分区过程,将比这个数大的数全放到它的右边,小于或等于它的数全放到它的左边.3．再对左右区间重复第二步,直到各区间只有一个数. 二.python快速排序代码复制代码代码如下: #!/usr/bin/python# -*- coding: utf-8 -*- def sub_sort(array,low,high): key = array[low] while low < high: while low <
python 统计代码行数简单实例

python 统计代码行数简单实例送测的时候,发现需要统计代码行数于是写了个小程序统计自己的代码的行数. #calclate_code_lines.py import os def afileline(f_path): res = 0 f = open(f_path) for lines in f: if lines.split(): res += 1 return res if __name__=='__main__': host = 'E:'+os.sep+'develop'+os.s
K-近邻算法的python实现代码分享

k-近邻算法概述: 所谓k-近邻算法KNN就是K-Nearest neighbors Algorithms的简称,它采用测量不同特征值之间的距离方法进行分类用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中. k-近邻算法分析优点:精度高.对异常值不敏感.无数据输入假定. 缺点:计算复杂度高.空间复杂度高. 适用数据范围:数值型和标称型 k-
单链表反转python实现代码示例

单链表的反转可以使用循环,也可以使用递归的方式 1.循环反转单链表循环的方法中,使用pre指向前一个结点,cur指向当前结点,每次把cur->next指向pre即可. 代码: class ListNode: def __init__(self,x): self.val=x; self.next=None; def nonrecurse(head): #循环的方法反转链表 if head is None or head.next is None: return head; pre=None; c
python获取代码运行时间的实例代码

有的时候,操作大文件,或者取数,要很久,我们给脚本首尾添加一段代码就知道,这段代码整体的大致运行时间了. import time start =time.clock() #中间写上代码块 end = time.clock() print('Running time: %s Seconds'%(end-start)) 运行结果会是这样: In [2]: %run F:\\celueji\\python_script\\sheetcopy_RuleRepor.py ...: Running time
用python统计代码行的示例(包括空行和注释)

实例如下所示: import os import string path = "/Users/U/workspace/python learning/show-me-the-code/0007/test/" dir = os.listdir(path) def count(file): total = 0 #总行数 countPound = 0 #注释行数 countBlank = 0 #空行数 line = open(file,'r',encoding='utf-8') #打开文件,
python实现代码统计程序

本文实例为大家分享了python实现代码统计程序的具体代码,供大家参考,具体内容如下 # encoding="utf-8" """ 统计代码行数 """ import sys import os def count_file_line(path): """统计文件的有效行数""" countLine = 0 # 设置一个标志位,当遇到以""&quo
Python实现代码统计工具

本文实例为大家分享了Python实现代码统计工具的具体代码,供大家参考,具体内容如下思路:首先获取所有文件,然后统计每个文件中代码的行数,最后将行数相加. 实现的功能: 统计每个文件的行数: 统计总行数: 支持指定统计文件类型,排除不想统计的文件类型: 排除空行: 排除注释行 import os import sys import os.path #for i in sys.argv: # print (i) # 判断单个文件的代码行数 def count_file_lines(file_pa

SVM基本概念及Python实现代码

相关推荐

随机推荐