Python 机器学习工具包SKlearn的安装与使用

2025-04-21 03:09:34

1、SKlearn 是什么

　　Sklearn（全称 SciKit-Learn），是基于 Python 语言的机器学习工具包。

　　Sklearn 主要用Python编写，建立在 Numpy、Scipy、Pandas 和 Matplotlib 的基础上，也用 Cython编写了一些核心算法来提高性能。

　　Sklearn 包括六大功能模块：

分类（Classification）：识别样本属于哪个类别，常用算法有 SVM（支持向量机）、nearest neighbors（最近邻）、random forest（随机森林）
回归（Regression）：预测与对象相关联的连续值属性，常用算法有 SVR（支持向量机）、 ridge regression（岭回归）、Lasso
聚类（Clustering）：对样本进行无监督的自动分类，常用算法有 k-Means（k均值）、spectral clustering（特征聚类）、mean-shift（均值漂移）
数据降维（Dimensionality reduction）：减少相关变量维数，常用算法有 PCA（主成分分析）、feature selection（特征选择）、non-negative matrix factorization（非负矩阵分解）
模型选择（Model Selection）：比较，验证，选择参数和模型，常用模块有 grid search（网格搜索）、cross validation（交叉验证）、 metrics（度量）
数据处理（Preprocessing）：特征提取和归一化，常用模块有 preprocessing（预处理），feature extraction（特征提取）
这六个功能模块涉及 4类算法，分类、回归属于监督学习，聚类属于非监督学习。

　　官网地址：https://scikit-learn.org/

　　官方文档中文版： https://www.scikitlearn.com.cn/

　　内置数据集：https://scikit-learn.org/stable/datasets.html

2、SKlearn 的安装

　　Sklearn 的安装要求：Python 3.5 以上版本，需要安装 NumPy、SciPy、Pandas 工具包的支持，部分内容需要使用 Matplotlib、joblib 工具包。

　　pip 安装命令：　　

pip3 install -U scikit-learn
pip3 install -U scikit-learn -i https://pypi.douban.com/simple

　　注意 Sklearn 建议安装 Numpy+mkl，可以在网址http://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到你需要的numpy+mkl版本，下载后 pip3安装：

pip install numpy-1.11.1+mkl-cp27-cp27m-win_amd64.whl

3、SKlearn 内置数据集

　　Sklearn 内置了一些标准数据集可以用于练习和测试，都是经常被引用的经典问题，数据网址：https://scikit-learn.org/stable/datasets.html　　
　　Sklearn 标准数据集主要包括：

测试问题数据集

波士顿房价：Boston house prices dataset
鸢尾花问题：Iris plants dataset
糖尿病数据：Diabetes dataset
手写数字的识别：Optical recognition of handwritten digits dataset
体能训练：Linnerrud dataset
葡萄酒鉴别：Wine recognition dataset
威斯康星州癌症诊断：reast cancer wisconsin (diagnostic) dataset

实际问题数据集

人脸数据：The Olivetti faces dataset
20个新闻文本数据：The 20 newsgroups text dataset
标记的人脸数据：The Labeled Faces in the Wild face recognition dataset
森林覆盖类型：Forest covertypes
路透社新闻数据：RCV1 dataset
网络入侵检测数据：Kddcup 99 dataset
加州住房数据：California Housing dataset

4、Sklearn 数模笔记的计划

　　粗略看看 Sklearn 的文档，是一个功能强大和丰富的机器学习库，远远超出了数学建模学习的范围。
　　基于数模教学的目的，本系列主要对应数模学习中的分类、聚类、降维问题，并不打算全面讲解 Sklearn 的各种算法，而是以典型问题为例来介绍原理简单、使用广泛的基本方法，以便新手入门。

以上就是Python 机器学习工具包SKlearn的安装与使用的详细内容，更多关于Python SKlearn的安装与使用的资料请关注我们其它相关文章！

Python之Sklearn使用入门教程

1.Sklearn简介 Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression).降维(Dimensionality Reduction).分类(Classfication).聚类(Clustering)等方法.当我们面临机器学习问题时,便可根据下图来选择相应的方法.Sklearn具有以下特点: 简单高效的数据挖掘和数据分析工具让每个人能够在复杂环境中重复使用建立NumPy.Scipy.MatPlotLib之上
运行python提示no module named sklearn的解决方法

在Python中,出现'no module named sklean'的原因是,没有正确安装sklean包.可以使用pip包管理器来安装包,pip包管理器会自动安装包所依赖bai的包而无需额外手动安装,因此十分方便.使用pip包管理器安装包的方法如下: 在命令行中输入:pip install sklean 如果成功安装,会提示"Successfully installed sklean". 其实参考下面的方法 1.安装支持部分: 在terminal里面直接输入以下命令,这个命令会安装s
python sklearn包——混淆矩阵、分类报告等自动生成方式

preface:做着最近的任务,对数据处理,做些简单的提特征,用机器学习算法跑下程序得出结果,看看哪些特征的组合较好,这一系列流程必然要用到很多函数,故将自己常用函数记录上.应该说这些函数基本上都会用到,像是数据预处理,处理完了后特征提取.降维.训练预测.通过混淆矩阵看分类效果,得出报告. 1.输入从数据集开始,提取特征转化为有标签的数据集,转为向量.拆分成训练集和测试集,这里不多讲,在上一篇博客中谈到用StratifiedKFold()函数即可.在训练集中有data和target开始. 2.
python数据分析之用sklearn预测糖尿病

一.数据集描述本数据集内含十个属性列 Pergnancies: 怀孕次数 Glucose:血糖浓度 BloodPressure:舒张压(毫米汞柱) SkinThickness:肱三头肌皮肤褶皱厚度(毫米) Insulin:两个小时血清胰岛素(μU/毫升) BMI:身体质量指数,体重除以身高的平方 Diabets Pedigree Function: 疾病血统指数是否和遗传相关,Height:身高(厘米) Age:年龄 Outcome:0表示不患病,1表示患病. 任务:建立机器学习模型以准确预
python实点云分割k-means(sklearn)详解

本文实例为大家分享了Python实点云分割k-means(sklearn),供大家参考,具体内容如下植物叶片分割 import numpy as np import matplotlib.pyplot as plt import pandas as pd from sklearn.cluster import KMeans from sklearn.preprocessing import StandardScaler from mpl_toolkits.mplot3d import Axes
python安装sklearn模块的方法详解

可直接用这行命令!: pip install -U scikit-learn 其他命令: (1)更新pip python -m pip install --upgrade pip (2)安装 scipy 在网址http://www.lfd.uci.edu/~gohlke/pythonlibs/ 中找到你需要的版本scipy 例如windows 64 位 Python2.7 对应下载:scipy-0.18.0-cp27-cp27m-win_amd64.whl cd 下载scipy 目录下,安装 p
Python sklearn中的.fit与.predict的用法说明

我就废话不多说了,大家还是直接看代码吧~ clf=KMeans(n_clusters=5) #创建分类器对象 fit_clf=clf.fit(X) #用训练器数据拟合分类器模型 clf.predict(X) #也可以给新数据数据对其预测 print(clf.cluster_centers_) #输出5个类的聚类中心 y_pred = clf.fit_predict(X) #用训练器数据X拟合分类器模型并对训练器数据X进行预测 print(y_pred) #输出预测结果补充知识:sklearn中
python3.6中anaconda安装sklearn踩坑实录

首先我是用pycharm完成的,要确定命令行和界面里是同一个环境. 如果不确定可以设置再add在新增加的环境里看现在是哪个环境,只要选择已有的环境,虽然project interpreter里面好像新增了个(2),但是包可以直接移植过来. 然后可以检查一下自己现在的Python版本和conda版本和解释器里的一样不. conda是在终端输入,conda info -e,第一个星号就是自己的版本. Python是在Python终端里面输入,import sys和sys.executable查看当前
Python sklearn库实现PCA教程(以鸢尾花分类为例)

PCA简介主成分分析(Principal Component Analysis,PCA)是最常用的一种降维方法,通常用于高维数据集的探索与可视化,还可以用作数据压缩和预处理等.矩阵的主成分就是其协方差矩阵对应的特征向量,按照对应的特征值大小进行排序,最大的特征值就是第一主成分,其次是第二主成分,以此类推. 基本步骤: 具体实现我们通过Python的sklearn库来实现鸢尾花数据进行降维,数据本身是4维的降维后变成2维,可以在平面中画出样本点的分布.样本数据结构如下图: 其中样本总数为150
python中sklearn的pipeline模块实例详解

最近在看<深度学习:基于Keras的Python实践(魏贞原)>这本书,书中8.3创建了一个Scikit-Learn的Pipeline,首先标准化数据集,然后创建和评估基线神经网络模型,代码如下: # 数据正态化,改进算法 steps = [] steps.append(('standardize', StandardScaler())) steps.append(('mlp', model)) pipeline = Pipeline(steps) kfold = KFold(n_splits
python实现密度聚类(模板代码+sklearn代码)

本人在此就不搬运书上关于密度聚类的理论知识了,仅仅实现密度聚类的模板代码和调用skelarn的密度聚类算法. 有人好奇,为什么有sklearn库了还要自己去实现呢?其实,库的代码是比自己写的高效且容易,但自己实现代码会对自己对算法的理解更上一层楼. #调用科学计算包与绘图包 import numpy as np import random import matplotlib.pyplot as plt # 获取数据 def loadDataSet(filename): dataSet=np.lo