Python sklearn中的.fit与.predict的用法说明

2025-04-01 07:15:13

我就废话不多说了，大家还是直接看代码吧~

clf=KMeans(n_clusters=5) #创建分类器对象
fit_clf=clf.fit(X) #用训练器数据拟合分类器模型
clf.predict(X) #也可以给新数据数据对其预测

print(clf.cluster_centers_) #输出5个类的聚类中心

y_pred = clf.fit_predict(X) #用训练器数据X拟合分类器模型并对训练器数据X进行预测

print(y_pred) #输出预测结果

补充知识：sklearn中调用某个机器学习模型model.predict(x)和model.predict_proba(x)的区别

model.predict_proba(x)不同于model.predict()，它返回的预测值为获得所有结果的概率。（有多少个分类结果，每行就有多少个概率，对每个结果都有一个概率值，如0、1两分类就有两个概率）

我们直接上代码，通过具体例子来进一步讲解：

python3 代码实现：

# -*- coding: utf-8 -*-
"""
Created on Sat Jul 27 21:25:39 2019

@author: ZQQ
"""
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
import numpy as np
import warnings
warnings.filterwarnings("ignore")
# 这个方法只是解决了表面，没有根治

# 数据（特征，属性）
x_train = np.array([[1,2,3],
          [1,5,4],
          [2,2,2],
          [4,5,6],
          [3,5,4],
          [1,7,2]])
# 数据的标签
y_train = np.array([1, 0, 1, 1, 0, 0]) 

# 测试数据
x_test = np.array([[2,1,2],
          [3,2,6],
          [2,6,4]]) 

# 导入模型
model = LogisticRegression() 

#model = RandomForestClassifier()

#model=XGBClassifier()

model.fit(x_train, y_train)

# 返回预测标签
print(model.predict(x_test)) 

print('---------------------------------------')

# 返回预测属于某标签的概率
print(model.predict_proba(x_test))

运行结果：

分析结果：

使用model.predict() :

预测[2,1,2]为1类

预测[3,2,6]为1类

预测[2,6,4]为0类

使用model.predict_proba() :

预测[2,1,2]的标签是0的概率为0.19442289，1的概率为0.80557711

预测[3,2,6]的标签是0的概率为0.04163615，1的概率为0.95836385

预测[2,6,4]的标签是0的概率为0.83059324，1的概率为0.16940676

预测为0类的概率值和预测为1的概率值和为1

同理，如果标签继续增加，3类：0，1, 2

预测为0类的概率值：a

预测为1类的概率值：b

预测为2类的概率值：c

预测出来的概率值的和a+b+c=1

注：model.predict_proba()返回所有标签值可能性概率值，这些值是如何排序的呢？

返回模型中每个类的样本概率，其中类按类self.classes_进行排序。

通过numpy.unique(label)方法，对label中的所有标签值进行从小到大的去重排序。

得到一个从小到大唯一值的排序。这也就对应于model.predict_proba()的行返回结果。

以上这篇Python sklearn中的.fit与.predict的用法说明就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

Python使用sklearn库实现的各种分类算法简单应用小结

本文实例讲述了Python使用sklearn库实现的各种分类算法简单应用.分享给大家供大家参考,具体如下: KNN from sklearn.neighbors import KNeighborsClassifier import numpy as np def KNN(X,y,XX):#X,y 分别为训练数据集的数据和标签,XX为测试数据 model = KNeighborsClassifier(n_neighbors=10)#默认为5 model.fit(X,y) predicted = m
Python使用sklearn实现的各种回归算法示例

本文实例讲述了Python使用sklearn实现的各种回归算法.分享给大家供大家参考,具体如下: 使用sklearn做各种回归基本回归:线性.决策树.SVM.KNN 集成方法:随机森林.Adaboost.GradientBoosting.Bagging.ExtraTrees 1. 数据准备为了实验用,我自己写了一个二元函数,y=0.5*np.sin(x1)+ 0.5*np.cos(x2)+0.1*x1+3.其中x1的取值范围是0~50,x2的取值范围是-10~10,x1和x2的训练集一共有5
深入浅析Python 中的sklearn模型选择

1.主要功能如下: 1.classification分类 2.Regression回归 3.Clustering聚类 4.Dimensionality reduction降维 5.Model selection模型选择 6.Preprocessing预处理 2.主要模块分类: 1.sklearn.base: Base classes and utility function基础实用函数 2.sklearn.cluster: Clustering聚类 3.sklearn.cluster.biclu
Python机器学习库scikit-learn安装与基本使用教程

本文实例讲述了Python机器学习库scikit-learn安装与基本使用.分享给大家供大家参考,具体如下: 引言 scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,SciPy和matplotlib模块之上能够为用户提供各种机器学习算法接口,可以让用户简单.高效地进行数据挖掘和数据分析. scikit-learn安装 python 中安装许多模板库之前都有依赖关系,安装 scikit-learn 之前需要以下先决条件: Python(>= 2.6 or >= 3
Python sklearn中的.fit与.predict的用法说明

我就废话不多说了,大家还是直接看代码吧~ clf=KMeans(n_clusters=5) #创建分类器对象 fit_clf=clf.fit(X) #用训练器数据拟合分类器模型 clf.predict(X) #也可以给新数据数据对其预测 print(clf.cluster_centers_) #输出5个类的聚类中心 y_pred = clf.fit_predict(X) #用训练器数据X拟合分类器模型并对训练器数据X进行预测 print(y_pred) #输出预测结果补充知识:sklearn中
19个Python Sklearn中超实用的隐藏功能分享

目录写在前面 1 .covariance.EllipticEnvelope 2 .feature_selection.RFECV 3 .ensemble.ExtraTrees 4 .impute.IterativeImputer 和 .impute.KNNImputer 5 .linear_model.HuberRegressor 6 .tree.plot_tree 7 .linear_model.Perceptron 8 .feature_selection.SelectFromModel
Python sklearn中的K-Means聚类使用方法浅析

目录初步认识初值选取小批初步认识 k-means翻译过来就是K均值聚类算法,其目的是将样本分割为k个簇,而这个k则是KMeans中最重要的参数:n_clusters,默认为8. 下面做一个最简单的聚类 import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn.datasets import make_blobs X, y = make_blobs(1
python 函数中的内置函数及用法详解

今天来介绍一下Python解释器包含的一系列的内置函数,下面表格按字母顺序列出了内置函数: 下面就一一介绍一下内置函数的用法: 1.abs() 返回一个数值的绝对值,可以是整数或浮点数等. print(abs(-18)) print(abs(0.15)) result: 18 0.15 2.all(iterable) 如果iterable的所有元素不为0.''.False或者iterable为空,all(iterable)返回True,否则返回False. print(all(['a','b',
Python numpy中np.random.seed()的详细用法实例

目录引言 E.G.实验 E.G.随机数种子参数的作用补充:一个随机种子在代码中只作用一次,只作用于其定义位置的下一次随机数生成总结引言在进行机器学习和深度学习中,我们会经常用到np.random.seed(),利用随机数种子,使得每次生成的随机数相同. numpy.randn.randn(d0,d1,...,dn) randn函数根据给定维度生成大概率在(-2.58~+2.58)之间的数据 randn函数返回一个或者一组样本,具有标准正态分布 dn表示每个维度返回值为指定维度的arr
Python编程中time模块的一些关键用法解析

python中time模块其实不难,就是关系转换有点老记不住,先看下图可以说明几个时间对象的的关系.供参考理解. 黑色细箭头表示输入值,参数深黄色的粗箭头表示返回值,输出格式绿色圆圈表示各类对象蓝色方框表示具体的方法 (先import time,在使用time模块中的方法) time.time():获取当前时间的时间戳 time.localtime():接受一个时间戳,并把它转化为一个当前时间的元组.不给参数的话就会默认将time.time()作为参数传入,localtime返回tuple
sklearn中的交叉验证的实现(Cross-Validation)

sklearn是利用python进行机器学习中一个非常全面和好用的第三方库,用过的都说好.今天主要记录一下sklearn中关于交叉验证的各种用法,主要是对sklearn官方文档 Cross-validation: evaluating estimator performance进行讲解,英文水平好的建议读官方文档,里面的知识点很详细. 先导入需要的库及数据集 In [1]: import numpy as np In [2]: from sklearn.model_selection impor
浅谈sklearn中predict与predict_proba区别

predict_proba 返回的是一个 n 行 k 列的数组,列是标签(有排序), 第 i 行第 j 列上的数值是模型预测第 i 个预测样本为某个标签的概率,并且每一行的概率和为1. predict 直接返回的是预测的标签. 具体见下面示例: # conding :utf-8 from sklearn.linear_model import LogisticRegression import numpy as np x_train = np.array([[1,2,3], [1,3,4]
python sklearn库实现简单逻辑回归的实例代码

Sklearn简介 Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression).降维(Dimensionality Reduction).分类(Classfication).聚类(Clustering)等方法.当我们面临机器学习问题时,便可根据下图来选择相应的方法. Sklearn具有以下特点: 简单高效的数据挖掘和数据分析工具让每个人能够在复杂环境中重复使用建立NumPy.Scipy.MatPlotLib之上代
python sklearn包——混淆矩阵、分类报告等自动生成方式

preface:做着最近的任务,对数据处理,做些简单的提特征,用机器学习算法跑下程序得出结果,看看哪些特征的组合较好,这一系列流程必然要用到很多函数,故将自己常用函数记录上.应该说这些函数基本上都会用到,像是数据预处理,处理完了后特征提取.降维.训练预测.通过混淆矩阵看分类效果,得出报告. 1.输入从数据集开始,提取特征转化为有标签的数据集,转为向量.拆分成训练集和测试集,这里不多讲,在上一篇博客中谈到用StratifiedKFold()函数即可.在训练集中有data和target开始. 2.

Python sklearn中的.fit与.predict的用法说明

相关推荐

随机推荐