Python OpenCV机器学习之图像识别详解

目录
  • 背景
  • 一、人脸识别
  • 二、车牌识别
  • 三、DNN图像分类

背景

OpenCV中也提供了一些机器学习的方法,例如DNN;本篇将简单介绍一下机器学习的一些应用,对比传统和前沿的算法,能从其中看出优劣;

一、人脸识别

主要有以下两种实现方法:

1、哈尔(Haar)级联法:专门解决人脸识别而推出的传统算法;

实现步骤:

创建Haar级联器;

导入图片并将其灰度化;

调用函数接口进行人脸识别;

函数原型:

detectMultiScale(img,scaleFactor,minNeighbors)

scaleFactor:缩放尺寸;

minNeighbors:最小像素值;

代码案例:

# 创建Haar级联器
facer = cv2.CascadeClassifier('./haarcascades/haarcascade_frontalface_default.xml')
# 导入人脸图片并灰度化
img = cv2.imread('p3.png')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
# 调用接口
faces = facer.detectMultiScale(gray, 1.1, 5)

for (x,y,w,h) in faces:
    cv2.rectangle(img, (x,y), (x+w, y+h), (0,0,255), 2)

cv2.imshow('img', img)
cv2.waitKey()

结论:Haar级联法对于完整脸部的检测效果还是不错的,但对于不完整脸部识别效果差,这可能也是传统算法的一个缺陷所在,泛化能力比较差;

拓展:Haar级联器还可以对脸部中细节特征进行识别

代码如下:

# 创建Haar级联器
facer = cv2.CascadeClassifier('./haarcascades/haarcascade_frontalface_default.xml')
eyer = cv2.CascadeClassifier('./haarcascades/haarcascade_eye.xml')
# 导入人脸图片并灰度化
img = cv2.imread('p3.png')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
# 调用接口
faces = facer.detectMultiScale(gray, 1.1, 5)
i = 0
for (x,y,w,h) in faces:
    cv2.rectangle(img, (x,y), (x+w, y+h), (0,0,255), 2)
    ROI_img = img[y:y+h, x:x+w]
    eyes = eyer.detectMultiScale(ROI_img, 1.1, 5)
    for (x,y,w,h) in eyes:
        cv2.rectangle(ROI_img, (x,y), (x+w, y+h), (0,255,0), 2)
    i += 1
    name = 'img'+str(i)
    cv2.imshow(name, ROI_img)
cv2.waitKey()

总结:Haar级联器提供了多种脸部属性的识别,眼睛鼻子嘴巴都可以,但效果不一定那么准确;

二、车牌识别

结构:Haar+Tesseract车牌识别;

说明:Haar级联器仅用于定位车牌的位置,Tesseract用于提取其中的内容;

实现步骤:

1、Haar级联器定位车牌位置;

2、车牌预处理操作(二值化、形态学、滤波去噪、缩放);

3、调用Tesseract进行文字识别;

注意:这里需要预先安装Tesseract;

代码案例:

import pytesseract
# 创建Haar级联器
carer = cv2.CascadeClassifier('./haarcascades/haarcascade_russian_plate_number.xml')
# 导入人脸图片并灰度化
img = cv2.imread('chinacar.jpeg')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
# 调用接口 
cars = carer.detectMultiScale(gray, 1.1, 3)
for (x,y,w,h) in cars:
    cv2.rectangle(img, (x,y), (x+w, y+h), (0,0,255), 2)
# 提取ROI
roi = gray[y:y+h, x:x+w]
# 二值化
ret, roi_bin = cv2.threshold(roi, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
# 文字识别
pytesseract.pytesseract.tesseract_cmd = r"D:\Tesseract_OCR\tesseract.exe"
text = pytesseract.image_to_string(roi, lang='chi_sim+eng',config='--psm 8 --oem 3')
print(text)
cv2.putText(img, text, (20,100), cv2.FONT_HERSHEY_SIMPLEX, 2, (0,0,255), 3)
cv2.imshow('img', img)
cv2.waitKey()

结论:车牌的位置检测比较准确,但Tesseract的识别并不那么准确,可能用ORC识别会准确一些;当然识别的准确率也和图像处理后比较模糊有关,做一些处理能够提升文字的识别率;

三、DNN图像分类

DNN为深度神经网络,并且是全连接的形式;

注意:OpenCV能够使用DNN模型,但并不能训练;

DNN使用步骤:

读取模型,得到网络结构;

读取数据(图片或视频)

将图片转成张量,送入网络;

模型输出结果;

函数原型:

导入模型:readNet(model,[config])

图像转张量:blobFromImage(image,scalefactor,size,mean,swapRB,crop)

送入网络:net.setInput(blob)

模型推理:net.forward()

代码案例:

# 导入模型
config = "./model/bvlc_googlenet.prototxt"
model = "./model/bvlc_googlenet.caffemodel"
net = dnn.readNetFromCaffe(config, model)

# 加载图片,转成张量
img = cv2.imread('./smallcat.jpeg')
blob = dnn.blobFromImage(img, 1.0, (224,224), (104,117,123))

# 模型推理
net.setInput(blob)
r = net.forward()
idxs = np.argsort(r[0])[::-1][:5]

# 分类结果展示
path = './model/synset_words.txt'
with open(path, 'rt') as f:
    classes = [x[x.find(" ")+1:]for x in f]
for (i, idx) in enumerate(idxs):
# 将结果展示在图像上
    if i == 0:
        text = "Label: {}, {:.2f}%".format(classes[idx],
            r[0][idx] * 100)
        cv2.putText(img, text, (5, 25),  cv2.FONT_HERSHEY_SIMPLEX,
            0.7, (0, 0, 255), 2)
# 显示图像
cv2.imshow("Image", img)
cv2.waitKey(0)

结论:实际上有了模型之后,推理的步骤并不复杂,难点在于前处理与后处理;往往图像的处理上的错误,或者是对结果的处理问题,会导致结果不符,这是需要特别注意的;

到此这篇关于Python OpenCV机器学习之图像识别详解的文章就介绍到这了,更多相关OpenCV 图像识别内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • 机器学习python实战之手写数字识别

    看了上一篇内容之后,相信对K近邻算法有了一个清晰的认识,今天的内容--手写数字识别是对上一篇内容的延续,这里也是为了自己能更熟练的掌握k-NN算法. 我们有大约2000个训练样本和1000个左右测试样本,训练样本所在的文件夹是trainingDigits,测试样本所在的文件夹是testDigits.文本文件中是0~9的数字,但是是用二值图表示出来的,如图.我们要做的就是使用训练样本训练模型,并用测试样本来检测模型的性能. 首先,我们需要将文本文件中的内容转化为向量,因为图片大小是32*32,所以

  • Python OpenCV实现图像傅里叶变换

    目录 二维离散傅里叶变换(DFT) OpenCV 实现图像傅里叶变换(cv.dft) 示例代码 二维离散傅里叶变换(DFT) 对于二维图像处理,通常使用 x , y x, yx,y 表示离散的空间域坐标变量,用 u , v u,vu,v 表示离散的频率域变量.二维离散傅里叶变换(DFT)和反变换(IDFT)为: 二维离散傅里叶变换也可以用极坐标表示: 傅里叶频谱(Fourier spectrum)为: 傅里叶相位谱(Fourier phase spectrum)为: 傅里叶功率谱(Fourier

  • Python利用机器学习算法实现垃圾邮件的识别

    开发工具 **Python版本:**3.6.4 相关模块: scikit-learn模块: jieba模块: numpy模块: 以及一些Python自带的模块. 环境搭建 安装Python并添加到环境变量,pip安装需要的相关模块即可. 逐步实现 (1)划分数据集 网上用于垃圾邮件识别的数据集大多是英文邮件,所以为了表示诚意,我花了点时间找了一份中文邮件的数据集.数据集划分如下: 训练数据集: 7063封正常邮件(data/normal文件夹下): 7775封垃圾邮件(data/spam文件夹下

  • Python+OpenCV数字图像处理之ROI区域的提取

    目录 1.实现原理 2.使用的函数简述 3.代码实现过程 (1)读入原始图像 (2)获取mask (3)获取人物mask (4)获取人物 (5)新建一张与原始图一样大小的蓝色的背景图 (6)得到蓝色背景的mask 4.整体代码  利用mask(掩模)技术提取纯色背景图像ROI区域中的人和物,并将提取出来的人或物添加在其他图像上. 1.实现原理 先通过cv.cvtColor()函数,将原RGB彩色图像转换为hsv色彩空间的图像,然后通过cv.inRange()函数获得ROI区域的Mask,最后利用

  • python构建深度神经网络(DNN)

    本文学习Neural Networks and Deep Learning 在线免费书籍,用python构建神经网络识别手写体的一个总结. 代码主要包括两三部分: 1).数据调用和预处理 2).神经网络类构建和方法建立 3).代码测试文件 1)数据调用: #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2017-03-12 15:11 # @Author : CC # @File : net_load_data.py # @Soft

  • Python+OpenCV图像处理之直方图统计

    目录 1. 直方图概述 (1)基本概念 (2)直方图中的术语 2. 直方图绘制 (1)读取图像信息 (2)绘制直方图 3. 掩膜直方图 (1)基本概念 (2)实现代码 4. H-S 直方图 (1)基本概念 (2)绘制二维H-S直方图 1. 直方图概述 (1)基本概念 直方图就是对图像的另外一种解释,它描述了整幅图像的灰度分布.直方图的 x 轴代表灰度值(0~255),y 轴代表图片中同一种灰度值的像素点的数目,所以通过直方图我们可以对图像的亮度.灰度分布.对比度等有了一个直观的认识 (2)直方图

  • Python OpenCV机器学习之图像识别详解

    目录 背景 一.人脸识别 二.车牌识别 三.DNN图像分类 背景 OpenCV中也提供了一些机器学习的方法,例如DNN:本篇将简单介绍一下机器学习的一些应用,对比传统和前沿的算法,能从其中看出优劣: 一.人脸识别 主要有以下两种实现方法: 1.哈尔(Haar)级联法:专门解决人脸识别而推出的传统算法: 实现步骤: 创建Haar级联器: 导入图片并将其灰度化: 调用函数接口进行人脸识别: 函数原型: detectMultiScale(img,scaleFactor,minNeighbors) sc

  • Python基于ImageAI实现图像识别详解

    目录 背景简介 图像预测 算法引入 目标检测 图像目标检测 视频目标检测 背景简介 ImageAI是一个面向计算机视觉编程的Python库,支持最先进的机器学习算法.主要图像预测,物体检测,视频对象检测与跟踪等多个应用领域.利用ImageAI,开发人员可用很少的代码构建出具有包含深度学习和计算机视觉功能的应用系统. ImageAI目前支持在ImageNet数据集上对多种不同机器算法进行图像预测和训练,ImageNet数据集项目始于2006年,它是一项持续的研究工作,旨在为世界各地的研究人员提供易

  • python OpenCV 实现高斯滤波详解

    目录 一.高斯滤波 二.C++代码 三.python代码 四.结果展示 1.原始图像 2.5x5卷积 3.9x9卷积 一.高斯滤波    高斯滤波是一种线性平滑滤波,适用于消除高斯噪声,广泛应用于图像处理的减噪过程. [1] 通俗的讲,高斯滤波就是对整幅图像进行加权平均的过程,每一个像素点的值,都由其本身和邻域内的其他像素值经过加权平均后得到.高斯滤波的具体操作是:用一个模板(或称卷积.掩模)扫描图像中的每一个像素,用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值. 二.C++代码

  • python opencv图像处理基本操作示例详解

    目录 1.图像基本操作 ①读取图像 ②显示图像 ③视频读取 ④图像截取 ⑤颜色通道提取及还原 ⑥边界填充 ⑦数值计算 ⑧图像融合 2.阈值与平滑处理 ①设定阈值并对图像处理 ②图像平滑-均值滤波 ③图像平滑-方框滤波 ④图像平滑-高斯滤波 ⑤图像平滑-中值滤波 3.图像的形态学处理 ①腐蚀操作 ②膨胀操作 ③开运算和闭运算 4.图像梯度处理 ①梯度运算 ②礼帽与黑帽 ③图像的梯度处理 5.边缘检测 ①Canny边缘检测 1.图像基本操作 ①读取图像 ②显示图像 该函数中,name是显示窗口的名字

  • Python OpenCV绘制各类几何图形详解

    目录 一.绘制直线 二.绘制矩形 三.绘制圆形 四.绘制椭圆 五.绘制多边形 六.绘制文字 七.总结 一.绘制直线 在OpenCV中,绘制直线需要获取直线的起点和终点坐标,调用cv2.line()函数实现该功能.该函数原型如下所示: img = line(img, pt1, pt2, color[, thickness[, lineType[, shift]]]) – img表示需要绘制的那幅图像 – pt1表示线段第一个点的坐标 – pt2表示线段第二个点的坐标 – color表示线条颜色,需

  • Python+OpenCV绘制灰度直方图详解

    1.直方图的概念 图像直方图是反映一个图像像素分布的统计表,其实横坐标代表了图像像素的种类,可以是灰度的,也可以是彩色的.纵坐标代表了每一种颜色值在图像中的像素总数或者占所有像素个数的百分比.图像是由像素构成,因为反映像素分布的直方图往往可以作为图像一个很重要的特征. 图像灰度直方图: 一幅图像由不同灰度值的像素组成,图像中灰度的分布情况是该图像的一个重要特征.图像的灰度直方图就描述了图像中灰度分布情况,能够很直观的展示出图像中各个灰度级所占的多少.图像的灰度直方图是灰度级的函数,描述的是图像中

  • Python OpenCV形态学运算示例详解

    目录 1. 腐蚀 & 膨胀 1.1什么是腐蚀&膨胀 1.2 腐蚀方法 cv2.erode() 1.3 膨胀方法 cv2.dilate() 2. 开运算 & 闭运算 2.1 简述 2.2 开运算 2.3 闭运算 3. morphologyEx()方法 3.1 morphologyEx()方法 介绍 3.2 梯度运算 3.3 顶帽运算 3.4 黑帽运算 1. 腐蚀 & 膨胀 1.1什么是腐蚀&膨胀 腐蚀&膨胀是图像形态学中的两种核心操作 腐蚀可以描述为是让图像沿

  • Python+OpenCV之形态学操作详解

    目录 一. 腐蚀与膨胀 1.1 腐蚀操作 1.2 膨胀操作 二. 开运算与闭运算 2.1 开运算 2.2 闭运算 三.梯度运算 四.礼帽与黑帽 4.1 礼帽 4.2 黑帽 一. 腐蚀与膨胀 1.1 腐蚀操作 import cv2 import numpy as np img = cv2.imread('DataPreprocessing/img/dige.png') cv2.imshow("img", img) cv2.waitKey(0) cv2.destroyAllWindows(

  • Python+OpenCV之图像梯度详解

    目录 1. Sobel算子 1.1 Sobel介绍 1.2 横向Sobel算子 1.3 纵向Sobel算子 1.4 合并横纵向的方法提取更好的边缘的结果 1.5 利用1.3方法绘制素描风格 2. Scharr算子 3. Laplacian算子 1. Sobel算子 OpenCV系列—本文底页有多个常用方法链接 1.1 Sobel介绍 cv2.Sobel(src, ddepth, dx, dy, ksize) ddepth:图像的深度 dx和dy分别表示水平和竖直方向 ksize是Sobel算子的

  • Python+OpenCV之图像轮廓详解

    目录 1. 图像轮廓 1.1 findContours介绍 1.2 绘制轮廓 1.3 轮廓特征 2. 轮廓近似 2.1 轮廓 2.2 边界矩形 2.3 外界多边形及面积 1. 图像轮廓 1.1 findContours介绍 cv2.findContours(img, mode, method) mode:轮廓检索模式 RETR_EXTERNAL :只检索最外面的轮廓: RETR_LIST:检索所有的轮廓,并将其保存到一条链表当中: RETR_CCOMP:检索所有的轮廓,并将他们组织为两层:顶层是

随机推荐