python实现验证码识别功能

2025-02-20 22:13:04

本文实例为大家分享了python实现验证码识别的具体代码，供大家参考，具体内容如下

1.通过二值化处理去掉干扰线

2.对黑白图片进行降噪，去掉那些单独的黑色像素点

3.消除边框上附着的黑色像素点

4.识别图像中的文字，去掉空格与'.'

python代码：

from PIL import Image
from aip import AipOcr 

file='1-1-7' 

# 二值化处理,转化为黑白图片
def two_value():
 for i in range(1, 5):
 # 打开文件夹中的图片
 image = Image.open(file+'.jpg')
 # 灰度图
 lim = image.convert('L')
 # 灰度阈值设为165，低于这个值的点全部填白色
 threshold = 165
 table = [] 

 for j in range(256):
  if j < threshold:
  table.append(0)
  else:
  table.append(1) 

 bim = lim.point(table, '1')
 bim.save(file+'.1.jpg') 

two_value() 

# 去除干扰线
im = Image.open(file+'.1.jpg')
# 图像二值化
data = im.getdata()
w, h = im.size
black_point = 0 

for x in range(1, w - 1):
 for y in range(1, h - 1):
 mid_pixel = data[w * y + x] # 中央像素点像素值
 if mid_pixel < 50: # 找出上下左右四个方向像素点像素值
  top_pixel = data[w * (y - 1) + x]
  left_pixel = data[w * y + (x - 1)]
  down_pixel = data[w * (y + 1) + x]
  right_pixel = data[w * y + (x + 1)] 

  # 判断上下左右的黑色像素点总个数
  if top_pixel < 5: #小于5比小于10更精确
  black_point += 1
  if left_pixel < 5:
  black_point += 1
  if down_pixel < 5:
  black_point += 1
  if right_pixel < 5:
  black_point += 1
  if black_point < 1:
  im.putpixel((x, y), 255)
  # print(black_point)
  black_point = 0 

im.save(file+'.2.jpg') 

# 去除干扰线
im = Image.open(file+'.2.jpg')
# 图像二值化
data = im.getdata()
w, h = im.size
black_point = 0 

for x in range(1, w - 1):
 for y in range(1, h - 1):
 if x < 2 or y < 2:
  im.putpixel((x - 1, y - 1), 255)
 if x > w - 3 or y > h - 3:
  im.putpixel((x + 1, y + 1), 255) 

im.save(file+'.3.jpg') 

# 定义常量
APP_ID = '11352343'
API_KEY = 'Nd5Z1NkGoLDvHwBnD2bFLpCE'
SECRET_KEY = 'A9FsnnPj1Ys2Gof70SNgYo23hKOIK8Os' 

# 初始化AipFace对象
aipOcr = AipOcr(APP_ID, API_KEY, SECRET_KEY) 

# 读取图片
filePath=file+'.3.jpg'
def get_file_content(filePath):
 with open(filePath, 'rb') as fp:
 return fp.read() 

# 定义参数变量
options = {
 'detect_direction': 'true',
 'language_type': 'CHN_ENG',
} 

# 调用通用文字识别接口
result = aipOcr.basicGeneral(get_file_content(filePath), options)
print(result)
words_result=result['words_result']
for i in range(len(words_result)):
 print(words_result[i]['words'].replace(' ','').replace('.','')) #去掉可能被识别的空格与.

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

谈谈Python进行验证码识别的一些想法

用python加"验证码"为关键词在baidu里搜一下,可以找到很多关于验证码识别的文章.我大体看了一下,主要方法有几类:一类是通过对图片进行处理,然后利用字库特征匹配的方法,一类是图片处理后建立字符对应字典,还有一类是直接利用ocr模块进行识别.不管是用什么方法,都需要首先对图片进行处理,于是试着对下面的验证码进行分析. 一.图片处理这个验证码中主要的影响因素是中间的曲线,首先考虑去掉图片中的曲线.考虑了两种算法: 第一种是首先取到曲线头的位置,即x=0时,黑点的位置.然后向后移动
python脚本实现验证码识别

最近在折腾验证码识别.最终的脚本的识别率在92%左右,9000张验证码大概能识别出八千三四百张左右.好吧,其实是验证码太简单.下面就是要识别的验证码. 我主要用的是Python中的PIL库. 首先进行二值化处理.由于图片中的噪点颜色比较浅,所以可以设定一个阈值直接过滤掉.这里我设置的阈值是150,像素大于150的赋值为1,小于的赋为0. def set_table(a): table = [] for i in range(256): if i < a: table.append(0) else
Python验证码识别处理实例

一.准备工作与代码实例 (1)安装PIL:下载后是一个exe,直接双击安装,它会自动安装到C:\Python27\Lib\site-packages中去, (2)pytesser:下载解压后直接放C:\Python27\Lib\site-packages(根据你安装的Python路径而不同),同时,新建一个pytheeer.pth,内容就写pytesser,注意这里的内容一定要和pytesser这个文件夹同名,意思就是pytesser文件夹,pytesser.pth,及内容都要一样! (3)Te
Python验证码识别的方法

本文实例讲述了Python验证码识别的方法.分享给大家供大家参考.具体实现方法如下: #encoding=utf-8 import Image,ImageEnhance,ImageFilter import sys image_name = "./22.jpeg" #去处干扰点 im = Image.open(image_name) im = im.filter(ImageFilter.MedianFilter()) enhancer = ImageEnhance.Contrast(
Python网站验证码识别

0x00 识别涉及技术验证码识别涉及很多方面的内容.入手难度大,但是入手后,可拓展性又非常广泛,可玩性极强,成就感也很足. 验证码图像处理验证码图像识别技术主要是操作图片内的像素点,通过对图片的像素点进行一系列的操作,最后输出验证码图像内的每个字符的文本矩阵. 读取图片图片降噪图片切割图像文本输出验证字符识别验证码内的字符识别主要以机器学习的分类算法来完成,目前我所利用的字符识别的算法为KNN(K邻近算法)和SVM (支持向量机算法),后面我会对这两个算法的适用场景进行详细描述.
python下调用pytesseract识别某网站验证码的实现方法

一.pytesseract介绍 1.pytesseract说明 pytesseract最新版本0.1.6,网址:https://pypi.python.org/pypi/pytesseract Python-tesseract is a wrapper for google's Tesseract-OCR ( http://code.google.com/p/tesseract-ocr/ ). It is also useful as a stand-alone invocation scrip
python验证码识别的实例详解

其实关于验证码识别涉及很多方面的内容,入手难度大,但是入手后,可拓展性又非常广泛,可玩性极强,成就感也很足,对这感兴趣的朋友们下面跟着小编一起来学习学习吧. 依赖 sudo apt-get install python-imaging sudo apt-get install tesseract-ocr pip install pytesseract 利用google ocr来识别验证码 from PIL import Image import pytesseract image = Image
python入门教程之识别验证码

前言验证码?我也能破解? 关于验证码的介绍就不多说了,各种各样的验证码在人们生活中时不时就会冒出来,身为学生日常接触最多的就是教务处系统的验证码了,比如如下的验证码: 识别办法模拟登陆有着复杂的步骤,在这里咱们不管其他操作,只负责根据输入的一张验证码图片返回一个答案字符串. 我们知道验证码为了制作干扰,会把图片弄成五颜六色的样子,而我们首先就是要去除这些干扰,这一步就需要不断试验了,增强图片色彩,加大对比度等等都可以产生帮助. 在经过各种对图片的操作之后,终于找到了比较完美的去除干扰方案.可
详解Python验证码识别

以前写过一个刷校内网的人气的工具,Java的(以后再也不行Java程序了),里面用到了验证码识别,那段代码不是我自己写的:-) 校内的验证是完全单色没有任何干挠的验证码,识别起来比较容易,不过从那段代码中可以看到基本的验证码识别方式.这几天在写一个程序的时候需要识别验证码,因为程序是Python写的自然打算用Python进行验证码的识别. 以前没用Python处理过图像,不太了解PIL(Python Image Library)的用法,这几天看了看PIL,发现它太强大了,简直和ImageMagi
python+selenium识别验证码并登录的示例代码

由于工作需要,登录网站需要用到验证码.最初是研究过验证码识别的,但是总是不能获取到我需要的那个验证码.直到这周五,才想起这事来,昨天顺利的解决了. 下面正题: python版本:3.4.3 所需要的代码库:PIL,selenium,tesseract 先上代码: #coding:utf-8 import subprocess from PIL import Image from PIL import ImageOps from selenium import webdriver import t

python实现验证码识别功能

相关推荐

随机推荐