python简单实现图片文字分割

2025-02-03 05:13:32

本文实例为大家分享了python简单实现图片文字分割的具体代码，供大家参考，具体内容如下

原图：

图片预处理：图片二值化以及图片降噪处理。

# 图片二值化
def binarization(img,threshold):
    #图片二值化操作
    width,height=img.size
    im_new = img.copy()
    for i in range(width):
        for j in range(height):
            a = img.getpixel((i, j))
            aa = 0.30 * a[0] + 0.59 * a[1] + 0.11 * a[2]
            if (aa <= threshold):
                im_new.putpixel((i, j), (0, 0, 0))
            else:
                im_new.putpixel((i, j), (255, 255, 255))

    # im_new.show()  # 显示图像
    return im_new

# 图片降噪处理
def clear_noise(img):
    # 图片降噪处理

    x, y = img.width, img.height
    for i in range(x-1):
        for j in range(y-1):
            if sum_9_region(img, i, j) < 600:
                # 改变像素点颜色，白色
                img.putpixel((i, j), (255,255,255))
    # img = np.array(img)
    #     # cv2.imwrite('handle_two.png', img)
    #     # img = Image.open('handle_two.png')
    img.show()
    return img

# 获取田字格内当前像素点的像素值
def sum_9_region(img, x, y):
    """
    田字格
    """
    # 获取当前像素点的像素值

    a1 = img.getpixel((x - 1, y - 1))[0]
    a2 = img.getpixel((x - 1, y))[0]
    a3 = img.getpixel((x - 1, y+1 ))[0]
    a4 = img.getpixel((x, y - 1))[0]
    a5 = img.getpixel((x, y))[0]
    a6 = img.getpixel((x, y+1 ))[0]
    a7 = img.getpixel((x+1 , y - 1))[0]
    a8 = img.getpixel((x+1 , y))[0]
    a9 = img.getpixel((x+1 , y+1))[0]
    width = img.width
    height = img.height

    if a5 == 255:  # 如果当前点为白色区域,则不统计邻域值
        return 2550

    if y == 0:  # 第一行
        if x == 0:  # 左上顶点,4邻域
            # 中心点旁边3个点
            sum_1 = a5 + a6 + a8 + a9
            return 4*255 - sum_1
        elif x == width - 1:  # 右上顶点
            sum_2 = a5 + a6 + a2 + a3
            return 4*255 - sum_2
        else:  # 最上非顶点,6邻域
            sum_3 = a2 + a3+ a5 + a6 + a8 + a9
            return 6*255 - sum_3

    elif y == height - 1:  # 最下面一行
        if x == 0:  # 左下顶点
            # 中心点旁边3个点
            sum_4 = a5 + a8 + a7 + a4
            return 4*255 - sum_4
        elif x == width - 1:  # 右下顶点
            sum_5 = a5 + a4 + a2 + a1
            return 4*255 - sum_5
        else:  # 最下非顶点,6邻域
            sum_6 = a5+ a2 + a8 + a4 +a1 + a7
            return 6*255 - sum_6

    else:  # y不在边界
        if x == 0:  # 左边非顶点
            sum_7 = a4 + a5 + a6 + a7 + a8 + a9
            return 6*255 - sum_7
        elif x == width - 1:  # 右边非顶点
            sum_8 = a4 + a5 + a6 + a1 + a2 + a3
            return 6*255 - sum_8
        else:  # 具备9领域条件的
            sum_9 = a1 + a2 + a3 + a4 + a5 + a6 + a7 + a8 + a9
            return 9*255 - sum_9

经过二值化和降噪后得到的图片

对图片进行水平投影与垂直投影：

# 传入二值化后的图片进行垂直投影
def vertical(img):
    """传入二值化后的图片进行垂直投影"""
    pixdata = img.load()
    w,h = img.size
    ver_list = []
    # 开始投影
    for x in range(w):
        black = 0
        for y in range(h):
            if pixdata[x,y][0] == 0:
                black += 1
        ver_list.append(black)
    # 判断边界
    l,r = 0,0
    flag = False
    t=0#判断分割数量
    cuts = []
    for i,count in enumerate(ver_list):
        # 阈值这里为0
        if flag is False and count > 0:
            l = i
            flag = True
        if flag and count == 0:
            r = i-1
            flag = False
            cuts.append((l,r))#记录边界点
            t += 1
    #print(t)
    return cuts,t

# 传入二值化后的图片进行水平投影
def horizontal(img):
    """传入二值化后的图片进行水平投影"""
    pixdata = img.load()
    w,h = img.size
    ver_list = []
    # 开始投影
    for y in range(h):
        black = 0
        for x in range(w):
            if pixdata[x,y][0] == 0:
                black += 1
        ver_list.append(black)
    # 判断边界
    l,r = 0,0
    flag = False
    # 分割区域数
    t=0
    cuts = []
    for i,count in enumerate(ver_list):
        # 阈值这里为0
        if flag is False and count > 0:
            l = i
            flag = True
        if flag and count == 0:
            r = i-1
            flag = False
            cuts.append((l,r))
            t += 1
    return cuts,t

这两段代码目的主要是为了分割得到水平和垂直位置的每个字所占的大小，接下来就是对预处理好的图片文字进行分割。

# 创建获得图片路径并处理图片函数
def get_im_path():

    OpenFile = tk.Tk()#创建新窗口
    OpenFile.withdraw()
    file_path = filedialog.askopenfilename()

    im = Image.open(file_path)
    # 阈值
    th = getthreshold(im) - 16
    print(th)
    # 原图直接二值化
    im_new1 = binarization(im, th)
    im_new1.show()
    # 直方图均衡化
    im1 = his_bal(im)
    im1.show()
    im_new_np = np.array(his_bal(im))

    th1 = getthreshold(im1) - 16
    print(th1)
    # 二值化
    im_new = binarization(im1, th1)
    # 降噪
    im_new_cn = clear_noise(im_new)
    height = im_new_cn.size[1]
    print(height)
    # 算出水平投影和垂直投影的数值
    v, vt = vertical(im_new1)
    h, ht = horizontal(im_new1)
    # 算出分割区域
    a = []
    for i in range(vt):
        a.append((v[i][0], 0, v[i][1], height))
    print(a)

    im_new.show()  # 直方图均衡化后再二值化

    # 切割
    for i, n in enumerate(a, 1):
        temp = im_new_cn.crop(n)  # 调用crop函数进行切割
        temp.show()
        temp.save("c/%s.png" % i)

至此大概就完成了。

接下来是文件的全部代码：

import numpy as np
from PIL import Image
import queue
import  matplotlib.pyplot as plt
import  tkinter as tk
from tkinter import filedialog#导入文件对话框函数库

window = tk.Tk()
window.title('图片选择界面')
window.geometry('400x100')

var = tk.StringVar()

# 创建获得图片路径并处理图片函数
def get_im_path():

    OpenFile = tk.Tk()#创建新窗口
    OpenFile.withdraw()
    file_path = filedialog.askopenfilename()

    im = Image.open(file_path)
    # 阈值
    th = getthreshold(im) - 16
    print(th)
    # 原图直接二值化
    im_new1 = binarization(im, th)
    im_new1.show()
    # 直方图均衡化
    im1 = his_bal(im)
    im1.show()
    im_new_np = np.array(his_bal(im))

    th1 = getthreshold(im1) - 16
    print(th1)
    # 二值化
    im_new = binarization(im1, th1)
    # 降噪
    im_new_cn = clear_noise(im_new)
    height = im_new_cn.size[1]
    print(height)
    # 算出水平投影和垂直投影的数值
    v, vt = vertical(im_new1)
    h, ht = horizontal(im_new1)
    # 算出分割区域
    a = []
    for i in range(vt):
        a.append((v[i][0], 0, v[i][1], height))
    print(a)

    im_new.show()  # 直方图均衡化后再二值化

    # 切割
    for i, n in enumerate(a, 1):
        temp = im_new_cn.crop(n)  # 调用crop函数进行切割
        temp.show()
        temp.save("c/%s.png" % i)

# 传入二值化后的图片进行垂直投影
def vertical(img):
    """传入二值化后的图片进行垂直投影"""
    pixdata = img.load()
    w,h = img.size
    ver_list = []
    # 开始投影
    for x in range(w):
        black = 0
        for y in range(h):
            if pixdata[x,y][0] == 0:
                black += 1
        ver_list.append(black)
    # 判断边界
    l,r = 0,0
    flag = False
    t=0#判断分割数量
    cuts = []
    for i,count in enumerate(ver_list):
        # 阈值这里为0
        if flag is False and count > 0:
            l = i
            flag = True
        if flag and count == 0:
            r = i-1
            flag = False
            cuts.append((l,r))#记录边界点
            t += 1
    #print(t)
    return cuts,t

# 传入二值化后的图片进行水平投影
def horizontal(img):
    """传入二值化后的图片进行水平投影"""
    pixdata = img.load()
    w,h = img.size
    ver_list = []
    # 开始投影
    for y in range(h):
        black = 0
        for x in range(w):
            if pixdata[x,y][0] == 0:
                black += 1
        ver_list.append(black)
    # 判断边界
    l,r = 0,0
    flag = False
    # 分割区域数
    t=0
    cuts = []
    for i,count in enumerate(ver_list):
        # 阈值这里为0
        if flag is False and count > 0:
            l = i
            flag = True
        if flag and count == 0:
            r = i-1
            flag = False
            cuts.append((l,r))
            t += 1
    return cuts,t

# 获得阈值算出平均像素
def getthreshold(im):
    #获得阈值 算出平均像素
    wid, hei = im.size
    hist = [0] * 256
    th = 0
    for i in range(wid):
        for j in range(hei):
            gray = int(0.3 * im.getpixel((i, j))[0] + 0.59 * im.getpixel((i, j))[1] + 0.11 * im.getpixel((i, j))[2])
            th = gray + th
            hist[gray] += 1

    threshold = int(th/(wid*hei))
    return threshold

# 直方图均衡化 提高对比度
def his_bal(im):
    #直方图均衡化 提高对比度

    # 统计灰度直方图
    im_new = im.copy()
    wid, hei = im.size
    hist = [0] * 256
    for i in range(wid):
        for j in range(hei):
            gray = int(0.3*im.getpixel((i,j))[0]+0.59*im.getpixel((i,j))[1]+0.11*im.getpixel((i,j))[2])
            hist[gray] += 1

    # 计算累积分布函数
    cdf = [0] * 256
    for i in range(256):
        if i == 0:
            cdf[i] = hist[i]
        else:
            cdf[i] = cdf[i - 1] + hist[i]

    # 用累积分布函数计算输出灰度映射函数LUT
    new_gray = [0] * 256
    for i in range(256):
        new_gray[i] = int(cdf[i] / (wid * hei) * 255 + 0.5)

    # 遍历原图像，通过LUT逐点计算新图像对应的像素值
    for i in range(wid):
        for j in range(hei):
            gray = int(0.3*im.getpixel((i,j))[0]+0.59*im.getpixel((i,j))[1]+0.11*im.getpixel((i,j))[2])
            im_new.putpixel((i, j), new_gray[gray])
    return im_new

# 图片二值化
def binarization(img,threshold):
    #图片二值化操作
    width,height=img.size
    im_new = img.copy()
    for i in range(width):
        for j in range(height):
            a = img.getpixel((i, j))
            aa = 0.30 * a[0] + 0.59 * a[1] + 0.11 * a[2]
            if (aa <= threshold):
                im_new.putpixel((i, j), (0, 0, 0))
            else:
                im_new.putpixel((i, j), (255, 255, 255))

    # im_new.show()  # 显示图像
    return im_new

# 图片降噪处理
def clear_noise(img):
    # 图片降噪处理

    x, y = img.width, img.height
    for i in range(x-1):
        for j in range(y-1):
            if sum_9_region(img, i, j) < 600:
                # 改变像素点颜色，白色
                img.putpixel((i, j), (255,255,255))
    # img = np.array(img)
    #     # cv2.imwrite('handle_two.png', img)
    #     # img = Image.open('handle_two.png')
    img.show()
    return img

# 获取田字格内当前像素点的像素值
def sum_9_region(img, x, y):
    """
    田字格
    """
    # 获取当前像素点的像素值

    a1 = img.getpixel((x - 1, y - 1))[0]
    a2 = img.getpixel((x - 1, y))[0]
    a3 = img.getpixel((x - 1, y+1 ))[0]
    a4 = img.getpixel((x, y - 1))[0]
    a5 = img.getpixel((x, y))[0]
    a6 = img.getpixel((x, y+1 ))[0]
    a7 = img.getpixel((x+1 , y - 1))[0]
    a8 = img.getpixel((x+1 , y))[0]
    a9 = img.getpixel((x+1 , y+1))[0]
    width = img.width
    height = img.height

    if a5 == 255:  # 如果当前点为白色区域,则不统计邻域值
        return 2550

    if y == 0:  # 第一行
        if x == 0:  # 左上顶点,4邻域
            # 中心点旁边3个点
            sum_1 = a5 + a6 + a8 + a9
            return 4*255 - sum_1
        elif x == width - 1:  # 右上顶点
            sum_2 = a5 + a6 + a2 + a3
            return 4*255 - sum_2
        else:  # 最上非顶点,6邻域
            sum_3 = a2 + a3+ a5 + a6 + a8 + a9
            return 6*255 - sum_3

    elif y == height - 1:  # 最下面一行
        if x == 0:  # 左下顶点
            # 中心点旁边3个点
            sum_4 = a5 + a8 + a7 + a4
            return 4*255 - sum_4
        elif x == width - 1:  # 右下顶点
            sum_5 = a5 + a4 + a2 + a1
            return 4*255 - sum_5
        else:  # 最下非顶点,6邻域
            sum_6 = a5+ a2 + a8 + a4 +a1 + a7
            return 6*255 - sum_6

    else:  # y不在边界
        if x == 0:  # 左边非顶点
            sum_7 = a4 + a5 + a6 + a7 + a8 + a9
            return 6*255 - sum_7
        elif x == width - 1:  # 右边非顶点
            sum_8 = a4 + a5 + a6 + a1 + a2 + a3
            return 6*255 - sum_8
        else:  # 具备9领域条件的
            sum_9 = a1 + a2 + a3 + a4 + a5 + a6 + a7 + a8 + a9
            return 9*255 - sum_9

btn_Open = tk.Button(window,
    text='打开图像',      # 显示在按钮上的文字
    width=15, height=2,
    command=get_im_path)     # 点击按钮式执行的命令

btn_Open.pack()

# 运行整体窗口
window.mainloop()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

python实现图片中文字分割效果

本文实例为大家分享了python实现图片中文字分割的具体代码,供大家参考,具体内容如下 1.原始图片(包含数字): 结果图: 2.原始图片(包含文字): 结果图: 3.代码如下: import cv2 import numpy as np path = 'test.jpg' root = 'output\\' # 图像resize dsize = 36 img = cv2.imread(path) data = np.array(img) height = data.shape[0] width
python 使用opencv 把视频分割成图片示例

我就废话不多说了,直接上代码吧! #--coding:utf-8-- import cv2 #图像路径名字错误不提示 im=cv2.imread("timg.jpg",cv2.IMREAD_GRAYSCALE) cv2.imwrite('res.jpg',im) ''' cap=cv2.VideoCapture("1EF5013E37956E7EF2D5F935B6107F34.mp4") while True: ret,im=cap.read() cv2.imsh
python实现将文件夹内的每张图片批量分割成多张

一.说在前面需求:有一张长为960,宽为96的图片,需要将其分割成10张96*96的图片并存放在另外一个文件夹下,通过手工分割耗时且不规范,选择python写一个简单的程序完成. 二.源码 # -*- coding: utf-8 -*- """ Created on Thu Aug 23 18:19:09 2018 @author: Administrator """ import os from PIL import Image # 切割图片
python实现图片九宫格分割

大家都知道在微信朋友圈或者微博以及QQ动态中,有很多"强迫症患者"发图片都爱发9张,而有些图是一张图片分成的九宫图,对于这种操作,大家知道是怎么做到的吗? 本文就是用Python做的一个九宫格图片生成器,是一个打包好的exe文件,用户无需部署安装Python的开发环境,在本地就可以运行此程序,以此快速生成九宫格图片. 下面是程序的所有代码,这是一个Python GUI程序,代码不多,也很容易理解: # -*- coding: UTF-8 -*- # 将一张图片分成九张,九宫格 impo
python opencv实现图片旋转矩形分割

有时候需要对有角度的矩形框内图像从原图片中分割出来.这里的程序思想是,先将图片进行矩形角度的旋转,使有角度的矩形处于水平状态后,根据原来坐标分割图片. 参考:python opencv实现旋转矩形框裁减功能修改原来的程序: 1.旋转函数的输入仅为矩形的四点坐标 2.角度由公式计算出来 3.矩形四点pt1,pt2,pt3,pt4由txt文件读入 4.在旋转程序中还处理了顺时针和逆时针及出现矩形框翻转的问题. 代码: # -*- coding:utf-8 -*- import cv2 from m
python中opencv实现文字分割的实践

图片文字分割的时候,常用的方法有两种.一种是投影法,适用于排版工整,字间距行间距比较宽裕的图像:还有一种是用OpenCV的轮廓检测,适用于文字不规则排列的图像. 投影法对文字图片作横向和纵向投影,即通过统计出每一行像素个数,和每一列像素个数,来分割文字. 分别在水平和垂直方向对预处理(二值化)的图像某一种像素进行统计,对于二值化图像非黑即白,我们通过对其中的白点或者黑点进行统计,根据统计结果就可以判断出每一行的上下边界以及每一列的左右边界,从而实现分割的目的. 算法步骤: 使用水平投影和垂直投
Python+opencv 实现图片文字的分割的方法示例

实现步骤: 1.通过水平投影对图形进行水平分割,获取每一行的图像: 2.通过垂直投影对分割的每一行图像进行垂直分割,最终确定每一个字符的坐标位置,分割出每一个字符: 先简单介绍一下投影法:分别在水平和垂直方向对预处理(二值化)的图像某一种像素进行统计,对于二值化图像非黑即白,我们通过对其中的白点或者黑点进行统计,根据统计结果就可以判断出每一行的上下边界以及每一列的左右边界,从而实现分割的目的. 下面通过Python+opencv来实现该功能首先来实现水平投影: import cv2 impor
python简单实现图片文字分割

本文实例为大家分享了python简单实现图片文字分割的具体代码,供大家参考,具体内容如下原图: 图片预处理:图片二值化以及图片降噪处理. # 图片二值化 def binarization(img,threshold): #图片二值化操作 width,height=img.size im_new = img.copy() for i in range(width): for j in range(height): a = img.getpixel((i, j)) aa = 0.30 * a[0]
Python简单实现图片转字符画的实例项目

1. 原理利用 PIL 库来获取图片并修改大小, 利用灰度值转换公式把每一个像素的 RGB 值转为灰度值 gray = int(0.2126*r+0.7152*g+0.0722*b) 再从字符集里获取对应的字符 asciis = list('M%$@#&WNBRwm8S5A4E3KXFPH69nsxeazgpqbdoctfhkyvuGZYVTUCI2QOD0L7Jjl1ri!^{}[]()/|;:*<>_~-,. ') 最后将字符连接起来并保存就完成了 2. 开始制作 2.1 导入所
Python图像处理之图片文字识别功能（OCR)

OCR与Tesseract介绍将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同的几个底层OCR 库,或者是在上面进行定制. Tesseract 是一个OCR 库,目前由Google 赞助(Google 也是一家以OCR 和机器学习技术闻名于世的公司).Tesseract 是目前公认最优秀.最精确的开源OCR 系统. 除了极高的精确度,Tesseract 也具有很高的灵活性.它可
Selenium+Python 自动化操控登录界面实例(有简单验证码图片校验)

从最简单的Web浏览器的登录界面开始,登录界面如下: 进行Web页面自动化测试,对页面上的元素进行定位和操作是核心.而操作又是以定位为前提的,因此,对页面元素的定位是进行自动化测试的基础. 页面上的元素就像人一样,有各种属性,比如元素名字,元素id,元素属性(class属性,name属性)等等.webdriver就是利用元素的这些属性来进行定位的. 可以用于定位的常用的元素属性: id name class name tag name link text partial link text xp
python实现图片九宫格分割的示例

简介大家都知道在微信朋友圈或者微博以及QQ动态中,有很多"强迫症患者"发图片都爱发9张,而有些图是一张图片分成的九宫图,对于这种操作,大家知道是怎么做到的吗? 本文就是用Python做的一个九宫格图片生成器,是一个打包好的exe文件,用户无需部署安装Python的开发环境,在本地就可以运行此程序,以此快速生成九宫格图片. 实现原理实现原理非常简单,那就是利用PIL库对原图不断画小区域然后切下来存储成新的小图片. 假设每一个格子的宽和高分别是w.h,那么第row行(从0开始计数),第
Python实现批量识别图片文字并存为Excel

目录一.背景二.需求三.实战 1.安装模块 2.识别一张图片 3.批量识别图片 4.保存数据一.背景大家好,我是J哥. 也许你还记得,前不久复旦大学一博士生写了130行Python代码,批量识别核酸截图内容的故事.当时还被人民日报公众号报道出来,夸赞用所学贡献青春力量! 其实,批量文字识别(OCR)是Python办公自动化的基本操作,应用在我们工作生活中的方方面面,比如车牌识别.证件识别.银行卡识别.票据识别等等. Python中OCR第三方库非常多,比如easyocr.PaddleO
Python实现识别图片为文字的示例代码

目录 1.环境准备 2.业务实现 3.效果展示本来想着做一个将图片识别为文字的小功能,本想到Google上面第一页全是各种收费平台的广告. 这些平台提供的基本都是让我们通过调用相关的三方接口实现的,本着坚决不想花一分钱的态度,在论坛找有没有可以免费解决的方案. 果然,有大佬早就做出开源框架pytesseract,差点让我损失了一笔巨款,哈哈~ 这次只为实现将图片识别为文字的业务功能,就不使用PyQt5做页面应用了.后面若是需要做成UI应用朋友比较多,我有时间会将这个小工具封装开发成一个PyQ5

python简单实现图片文字分割

相关推荐

随机推荐