Python实现识别手写数字大纲

2025-02-20 07:08:18

写在前面

其实我之前写过一个简单的识别手写数字的程序，但是因为逻辑比较简单，而且要求比较严苛，是在50x50大小像素的白底图上手写黑色数字，并且给的训练材料也不够多，导致准确率只能五五开。所以这一次准备写一个加强升级版的，借此来提升我对Python处理文件与图片的能力。

这次准备加强难度：

被识别图片可以是任意大小；
不一定是白底图，只要数字颜色是黑色，周围环境是浅色就行；
加强识别手写数字的逻辑，提升准确率。

因为我还没开始正式写，并且最近专业课程学习也比较紧迫，所以可能更新的比较慢。不过放心，代码质量肯定是不会下降的，我会尽我所能写的逻辑明确、通俗易懂点。

所以这次面向的人群是拥有一定Python基础，对数学算发有一点了解（识别图像的算法嘛）的人。

但毕竟我不是专业的，也没有看那么多论文，所以我这里运用的算法仅仅是我一个粗浅的想法，只是为了练手而已。如果和实际应用脱节，还望莫怪。

当然，如果诸位有什么比较好的想法，可以在下方评论或者私信我，我们可以探讨一下，相互进步。

整体思路

大纲

对图片的预处理

在最开始的时候，我们假设只拥有一个训练库，里面是从0到9的手写数字图案若干组。

所以我们首先应该将这些图案读入程序中，然后运用某种方式保存好，用来后面识别图片。

这里的图案我们假设是大小不一的，里面手写的数字也是有大有小。所以我们可以将包住手写数字图案的最小矩形给裁剪出来，然后将裁剪出来的图案统一给拉伸成相同大小的图案。

以上操作得出一个矩阵，这个矩阵的值是图案的灰度值。对于训练用的图片和被检测的图片我们都是这样处理。

图像识别的算法处理

我这里想用两个方法来让数字识别准确点：

识别所写数字的“洞数”；
将图片转为1xn的向量，然后根据根据训练图片分出的类对被识别图片图片进行分类。

洞数就是某个数字是否有闭合的曲线，比如说7没有洞，6有一个洞，8有两个洞。所以我们根据洞数可以分成以下三类

0洞：1, 2, 3, 4, 5, 7
1洞：6, 9, 0
2洞：8

但是因为各种手写差异，比如说6, 9, 8之类的没有闭合，4上面闭合，所以会导致下面这种可能情况

0洞：1, 2, 3, 4, 5, 6, 7, 9
1洞：6, 8, 9, 0
2洞：8

虽然说这样分类0洞占大多数，但是聊胜于无。

对于将图片转为向量的意思就是将图片原本的二维矩阵展开称为一维向量。这个用numpy的函数可以可以很简单的实现。

对于这个分类，下面我就简单的讲一下原理。

假设我们在二维平面上有两个点A=(1,1)和B=(5,5)，我现在再放一个点C=(2,2)，那么请问，C点离哪一个更近？

学过初中数学的都会知道肯定是离A点更近。所以我们换一种说法，我们现在有两个类A和B，A类中包括了点(1,1),B类中包括了点(5,5)，所以对于点(2,2)，它可能属于哪一类？

因为这个点离A类的点更近一点，所以它可能属于A类。这就是结论。那么对于3维空间，A类是点(1,1,1)和B类是(5,5,5)，那么对于点(2,2,2)肯定也是属于A类。

可以看出，我们这里是将两个点的距离来作为判断属于哪一类的标准。那么对于我们将图片拉成的1xn维向量，他实际上投影到n维空间上就是一个点，所以我们将训练向量分成10类，分别代表十个数字，那么被识别数字靠近哪一个类，那说明它有可能属于这一个类。

那么我们这里可以假设对于被识别向量，列出距离他最近的前十个向量分别属于哪一类别，然后根据名次加上一个权重，并计算出一个值。该值代表了可能是属于哪一个类，因此这就是我们得出的最终的一个结果——被识别手写数字图片的值。

难点

保存已训练图片的向量。这一条我想就直接保存在csv文件中，每一次运算时先判断是否有新的训练图片加入，如果有，则把新的图片向量也存入csv文件中。若没有，则直接读取所有向量保存在一个大矩阵中用于计算。

将手写数字从背景中分离。因为我这里令手写数字为黑色（灰度值为0），其他背景色尽量为，所以就令灰度值大于某个界限（如50）的点全部为255（白色），其余不变。这样子只要非255，那就是手写数字的点。

识别手写数字的洞。这个有算法，搞过程序设计竞赛的应该会了解。具体我就不细讲了，大概就是利用递归之类的去寻找。

求向量距离。这个更简单了，求解每一个训练向量与识别向量的距离就行，只不过当训练向量比较大的时候可能比较慢。

总结

以上就是全部思路，如果诸位有更好的想法，欢迎评论/私信我，让我们一起相互学习进步，谢谢。

您可能感兴趣的文章:

Python实现识别手写数字 Python图片读入与处理
python实现识别手写数字 python图像识别算法
python实现图像识别功能
学习Python3 Dlib19.7进行人脸面部识别
Python3结合Dlib实现人脸识别和剪切
用Python进行简单图像识别（验证码）
Python3一行代码实现图片文字识别的示例
Python用sndhdr模块识别音频格式详解
Python用imghdr模块识别图片格式实例解析
Python实现识别手写数字简易图片存储管理系统

python实现图像识别功能

本文实例为大家分享了python实现图像识别的具体代码,供大家参考,具体内容如下 #! /usr/bin/env python from PIL import Image import pytesseract url='img/denggao.jpeg' image=Image.open(url) #image=image.convert('RGB') # RGB image=image.convert('L') # 灰度 image.load() text=pytesseract.image_
Python实现识别手写数字 Python图片读入与处理

写在前面在上一篇文章Python徒手实现手写数字识别-大纲中,我们已经讲过了我们想要写的全部思路,所以我们不再说全部的思路. 我这一次将图片的读入与处理的代码写了一下,和大纲写的过程一样,这一段代码分为以下几个部分: 读入图片: 将图片读取为灰度值矩阵: 图片背景去噪: 切割图片,得到手写数字的最小矩阵: 拉伸/压缩图片,得到标准大小为100x100大小矩阵: 将图片拉为1x10000大小向量,存入训练矩阵中. 所以下面将会对这几个函数进行详解. 代码分析基础内容首先我们现在最前面定义基础
学习Python3 Dlib19.7进行人脸面部识别

0.引言自己在下载dlib官网给的example代码时,一开始不知道怎么使用,在一番摸索之后弄明白怎么使用了: 现分享下 face_detector.py 和 face_landmark_detection.py 这两个py的使用方法: 1.简介 python: 3.6.3 dlib: 19.7 利用dlib的特征提取器,进行人脸矩形框的特征提取: dets = dlib.get_frontal_face_detector(img) 利用dlib的68点特征预测器,进行人脸 68点特征提
Python实现识别手写数字简易图片存储管理系统

写在前面上一篇文章Python实现识别手写数字-图像的处理中我们讲了图片的处理,将图片经过剪裁,拉伸等操作以后将每一个图片变成了1x10000大小的向量.但是如果只是这样的话,我们每一次运行的时候都需要将他们计算一遍,当图片特别多的时候会消耗大量的时间. 所以我们需要将这些向量存入一个文件当中,每次先看看图库中有没有新增的图片,如果有新增的图片,那么就将新增的图片变成1x10000向量再存入文件之中,然后从文件中读取全部图片向量即可.当图库中没有新增图片的时候,那么就直接调用文件中的图片向量进
Python用imghdr模块识别图片格式实例解析

imghdr模块功能描述:imghdr模块用于识别图片的格式.它通过检测文件的前几个字节,从而判断图片的格式. 唯一一个API imghdr.what(file, h=None) 第一个参数file可以是用rb模式打开的file对象或者表示路径的字符串和PathLike对象.h参数是一段字节串.函数返回表示图片格式的字符串. >>> import imghdr >>> imghdr.what('test.jpg') 'jpeg' 具体的返回值和描述如下: 返回值描述
Python3结合Dlib实现人脸识别和剪切

0.引言利用python开发,借助Dlib库进行人脸识别,然后将检测到的人脸剪切下来,依次排序显示在新的图像上: 实现的效果如下图所示,将图1原图中的6张人脸检测出来,然后剪切下来,在图像窗口中依次输出显示人脸: 实现比较简单,代码量也比较少,适合入门或者兴趣学习. 图1 原图和处理后得到的图像窗口 1.开发环境 python: 3.6.3 dlib: 19.7 OpenCv, numpy import dlib # 人脸识别的库dlib import numpy as np # 数据处理的库
Python3一行代码实现图片文字识别的示例

自学Python3第5天,今天突发奇想,想用Python识别图片里的文字.没想到Python实现图片文字识别这么简单,只需要一行代码就能搞定 from PIL import Image import pytesseract #上面都是导包,只需要下面这一行就能实现图片文字识别 text=pytesseract.image_to_string(Image.open('denggao.jpeg'),lang='chi_sim') print(text) 我们以识别诗词为例下面是我们要识别的图片先
python实现识别手写数字 python图像识别算法

写在前面这一段的内容可以说是最难的一部分之一了,因为是识别图像,所以涉及到的算法会相比之前的来说比较困难,所以我尽量会讲得清楚一点. 而且因为在编写的过程中,把前面的一些逻辑也修改了一些,将其变得更完善了,所以一切以本篇的为准.当然,如果想要直接看代码,代码全部放在我的GitHub中,所以这篇文章主要负责讲解,如需代码请自行前往GitHub. 本次大纲上一次写到了数据库的建立,我们能够实时的将更新的训练图片存入CSV文件中.所以这次继续往下走,该轮到识别图片的内容了. 首先我们需要从文件夹中
用Python进行简单图像识别（验证码）

这是一个最简单的图像识别,将图片加载后直接利用Python的一个识别引擎进行识别将图片中的数字通过 pytesseract.image_to_string(image)识别后将结果存入到本地的txt文件中 #-*-encoding:utf-8-*- import pytesseract from PIL import Image class GetImageDate(object): def m(self): image = Image.open(u"C:\\a.png") text
Python用sndhdr模块识别音频格式详解

本文主要介绍了Python编程中,用sndhdr模块识别音频格式的相关内容,具体如下. sndhdr模块功能描述:sndhdr模块提供检测音频类型的接口. 唯一一个API sndhdr模块提供了sndhdr.what(filename)和sndhdr.whathdr(filename)两个函数.但实际上它们的功能是一样的.(不知道多写一个的意义何在,what函数在内部调用了whathdr函数并把数据完完整整地返回) 在之前的版本,whathdr函数返回元组类型的数据,在Python3.5版本之

Python实现识别手写数字大纲

您可能感兴趣的文章:

相关推荐

随机推荐