Python实现K-means聚类算法并可视化生成动图步骤详解

2025-07-02 04:55:45

K-means算法介绍

简单来说，K-means算法是一种无监督算法，不需要事先对数据集打上标签，即ground-truth，也可以对数据集进行分类，并且可以指定类别数目牧师-村民模型

K-means 有一个著名的解释：牧师—村民模型：

有四个牧师去郊区布道，一开始牧师们随意选了几个布道点，并且把这几个布道点的情况公告给了郊区所有的村民，于是每个村民到离自己家最近的布道点去听课。
听课之后，大家觉得距离太远了，于是每个牧师统计了一下自己的课上所有的村民的地址，搬到了所有地址的中心地带，并且在海报上更新了自己的布道点的位置。
牧师每一次移动不可能离所有人都更近，有的人发现A牧师移动以后自己还不如去B牧师处听课更近，于是每个村民又去了离自己最近的布道点……
就这样，牧师每个礼拜更新自己的位置，村民根据自己的情况选择布道点，最终稳定了下来。

牧师的目的非常明显，就是要让每个来上自己课的村民走的路程最少

算法步骤

指定k个中心点
更新数据点所属类别：计算每个数据点到这k个点的欧氏距离，距离最小即为这个数据点的类别
更新中心点坐标：对每一个类别的数据点求平均，平均值即为新的中心点位置

伪代码

获取m个n维的数据
随即选取k个点作为初始中心点
while keep_changing:
	for i in range(m):
		for j in range(k):
			计算每个点到center的距离
			判断离哪个点更近
		for center in range(k):
			更新类别中心点的坐标

用Python实现K-means聚类算法

import numpy as np
import matplotlib.pyplot as plt
import sklearn.datasets as datasets

def create_data():
    X,y = datasets.make_blobs(n_samples=1000,n_features=2,centers=[[1,0],[5,4],[2,3],[10,8],[7,4]])
    return X,y

def init_centers(data,k):
    m, n =data.shape
    # m 样本个数，n特征个数
    center_ids = np.random.choice(m,k)
    centers = data[center_ids]
    return centers

def cal_dist(ptA,ptB):
   return np.linalg.norm(ptA-ptB)

def kmeans_process(data,k):
    centers = init_centers(data, k)
    m, n = data.shape
    keep_changing = True
    pred_y = np.zeros((m,))

    while keep_changing:
        keep_changing = False
        # 计算剩余样本所属类别
        for i in range(m):
            min_distance = np.inf
            for center in range(k):
                distance = cal_dist(data[i,:],centers[center,:])
                if distance<min_distance: # 判断离哪个更近
                    min_distance = distance
                    idx = center # 类别换下
            if pred_y[i] != idx:   # 判断是否发生了改变
                keep_changing = True
            pred_y[i] = idx
        # 更新类别中心点坐标
        for center in range(k):
            cluster_data = data[pred_y==center]
            centers[center,:] = np.mean(cluster_data, axis=0) # 求相同类别数据点的质心点
        print(centers)
    return centers, pred_y

if __name__ == '__main__':
    X, y = create_data()
    centers , pred_y = kmeans_process(data=X, k=5)
    plt.scatter(X[:,0], X[:,1], s=3, c=pred_y)
    plt.scatter(centers[:,0], centers[:,1], s=10, c='k')
    plt.show()

效果图

到此这篇关于Python实现K-means聚类算法并可视化生成动图步骤详解的文章就介绍到这了,更多相关Python可视化K-means聚类算法内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

python实现由数组生成对称矩阵

在实际应用中,经常会遇上这样的小需求:根据一段给定的数组,生成由这一段数组值构成的对称矩阵. 例如,给定数组[1,2,3,4,5,6,7,8,9,10],要求生成如下的矩阵: [[0,1,2,3,4], [1,0,5,6,7], [2,5,0,8,9], [3,6,8,0,10], [4,7,9,10,0]] 其中,对角元全为0,该类型的矩阵完全由给定的数组决定. 笔者给出实现以上功能的一种python参考代码如下: def semi_to_full(m): import numpy as np
Python生成九宫格图片的示例代码

一.前言大家在朋友圈应该看到过用一张图片以九宫格的方式显示,效果大致如下: 要实现上面的效果非常简单,我们只需要截取图片的九个区域即可.今天我们就要带大家使用Python来实现一下九宫格图片的生成.在开始之前,我们需要安装一下Pillow模块,语句如下: pip install pillow 下面我们先来看看一些简单的图片操作. 二.图片基本操作今天我们会使用到三个操作,分别是读取图片.保存图片和截取图片.下面我们分别来看看. 2.1 读取图片在Pillow中,我们最常用的就是Image子
python生成随机数、随机字符、随机字符串的方法示例

本文是基于Windows 10系统环境,实现python生成随机数.随机字符.随机字符串: Windows 10 PyCharm 2018.3.5 for Windows (exe) python 3.6.8 Windows x86 executable installer (1) 生成随机数随机整数 import random num = random.randint(1, 50) # 闭区间 print(num) 随机选取0到100间的偶数 import random num = rand
python opencv 找出图像中的最大轮廓并填充(生成mask)

本文主要介绍了python opencv 找出图像中的最大轮廓并填充,分享给大家,具体如下: import cv2 import numpy as np from PIL import Image from joblib import Parallel from joblib import delayed # Parallel 和 delayed是为了使用多线程处理 # 使用前需要安装joblib:pip install joblib # img_stack的shape为:num, h, w #
python基于opencv批量生成验证码的示例

基本思路是使用opencv来把随机生成的字符,和随机生成的线段,放到一个随机生成的图像中去. 虽然没有加复杂的形态学处理,但是目前看起来效果还不错尝试生成1000张图片,但是最后只有998张,因为有有重复的,被覆盖掉了. 代码如下: import cv2 import numpy as np line_num = 10 pic_num = 1000 path = "./imgs/" def randcolor(): return (np.random.randint(0,255),n
python自动化之如何利用allure生成测试报告

Allure测试报告框架帮助你轻松实现"高大上"报告展示.本文通过示例演示如何从0到1集成Allure测试框架.重点展示了如何将Allure集成到已有的自动化测试工程中.以及如何实现报表的优化展示.Allure非常强大,支持多种语言多种测试框架,无论是Java/Python还是Junit/TestNG,其他语言或者框架实现的流程和本文一致,具体配置参照各语言框架规范安装安装allure Windows用户: scoop install allure (需要先下载并安装Scoo
python3使用迭代生成器实现减少内存占用

技术背景在python编码中for循环处理任务时,会将所有的待遍历参量加载到内存中.其实这本没有必要,因为这些参量很有可能是一次性使用的,甚至很多场景下这些参量是不需要同时存储在内存中的,这时候就会用到本文所介绍的迭代生成器yield. 基本使用首先我们用一个例子来演示一下迭代生成器yield的基本使用方法,这个例子的作用是构造一个函数用于生成一个平方数组.在普通的场景中我们一般会直接构造一个空的列表,然后将每一个计算结果填充到列表中,最后return列表即可,对应的是这里的函数square
python学习之可迭代对象、迭代器、生成器

Iterable – 可迭代对象能够逐一返回其成员项的对象. 可迭代对象的例子包括所有序列类型 (例如 list, str 和 tuple) 以及某些非序列类型例如 dict, 文件对象以及定义了__iter__()方法或是实现了序列语义的__getitem__() 方法的任意自定义类对象. 可迭代对象可用于 for 循环以及许多其他需要一个序列的地方(zip().map() -).当一个可迭代对象作为参数传给内置函数 iter() 时,它会返回该对象的迭代器.这种迭代器适用于对值集合的一次性
Python .py生成.pyd文件并打包.exe 的注意事项说明

最近用python写了一个小程序,想发布出去让人试用又不想暴露源码,搜索了一下发现将py文件编译成pyd文件就能达到目的. 转换过程很简单,但是在调用pyd文件并且打包为单个exe文件的时候遇到一个坑,搞了一天才解决,在这里分享一下. 首先安装cython库个人比较喜欢用清华的镜像库,速度快. pip install Cyphton -i https://pypi.tuna.tsinghua.edu.cn/simple 然后创建一个setup.py文件写入以下内容: from distuti
用Python生成N层的杨辉三角的实现方法

[杨辉三角简介] 杨辉三角,是二项式系数在三角形中的一种几何排列.在欧洲,这个表叫做帕斯卡三角形. [代码实现] n = eval(input("请问你想生成几层的杨辉三角呢?")) result= [] def fun(N): # 杨辉三角生成函数 if N == 1: result.append([1]) elif N == 2: result.append([1]) result.append([1,1]) else: result.append([1]) result.ap
python2利用wxpython生成投影界面工具的图文详解

本投影界面工具的功能: 准备好.prj投影文件,将输入文件夹内的WGS84经纬度坐标shp文件,投影为平面文件,成果自动命名为prj_***并新建在输入文件夹同一路径下. 下一步目标: 利用pyinstaller或其他打包库生成exe文件,目前停滞在python2语法.arcpy打包出错相关问题上. 参考文献: <Using Py2exe with Arcpy- It can be done easily!> <如何使用py2exe打包arcpy脚本?> GUI界面示意图投影文件
用python自动生成日历

效果在Excel日历模板的基础上,生成带有农历日期.节假日.休班等信息的日历,解决DIY日历最大的技术难题. 图中日期,第一行为公历,第二行为节假日,第三行为农历,第四行是其他特别的日子,比如生日.纪念日等. 特点使用门槛低 Python + Excel,会运行Python脚本,会使用Excel即可上手. 步骤简单只需要修改Excel的年份(在一月份表头修改),运行一次脚本可扩展可制作任意年份的日历(修改年份即可) 可定制可以添加其他特殊日期使用手册第一步,修改日历年份及样式打
python实战之用emoji表情生成文字

一.前言昨夜刷b站的时候,看到了一条评论,形式如下图,于是心血来潮写了个python脚本,可以根据文字来生成这种由emoji拼接成的"文字". 二.思路代码的思路极其简单,这种形式的"文字"可以理解为一张黑白图片,图中的白色使用一种emoji表情代替,黑色使用另一种emoji代替.那么想要生成这种"文字",则我们只需要两步即可,第一步是根据输入文字得到一张图,第二步则是遍历这张图片,当前像素的颜色为黑色时我们输出
python 生成xml文件,以及美化的实例代码

看代码吧~ # -*- coding:utf-8 -*- import os import json import numpy as np #from xml.etree import ElementTree as etree from xml.etree.ElementTree import Element from xml.etree.ElementTree import SubElement from xml.etree.ElementTree import ElementTree ima

Python实现K-means聚类算法并可视化生成动图步骤详解

K-means算法介绍

算法步骤

伪代码

相关推荐

随机推荐