高手过招第 7 期——离线识别普通验证码

前言

以下方法适用于简易的验证码识别,需要根据自身情况进行调整。

一、配置环境

  1. 安装 pytesseract 库
    首先我们需要检查是否已经安装了 pytesseract 库,经过检查8.0 以上版本的设计器,都是已内置了 pytesseract 库的,所以可以不用再安装。
    想练练手也可以再重新安装一遍。
    安装:cd 至 Python\Scripts,运行命令 pip3 install pytesseract
    安装失败可参考:【 pip 安装第三方库报错解决方法

  2. 安装 Tesseract-OCR
    我这里使用的是 4.1 版本 (64 位):tesseractocrw64setupv41020190314.exe
    另外提供 32 位的安装包:tesseractocrw32setupv400beta120180414.exe
    也可自行去官网下载所需版本:https://digi.bib.uni-mannheim.de/tesseract/
    记住使用对应位数的安装包进行安装,安装时全部 next 即可。

  3. 找到 pytesseract.py 配置 tesseract_cmd
    (1)我使用的是 8.0 版本的设计器,pytesseract.py 的路径如图,一般是在 Python\Lib\site-packages\pytesseract 下:
    高手过招第 7 期——离线识别普通验证码
    (2)打开 pytesseract.py 配置 tesseract_cmd,配置路径为第二步安装的 Tesseract-OCR 下的 tesseract.exe 的路径,默认路径为 C:\Program Files\Tesseract-OCR\tesseract.exe, 根据自身安装情况进行配置,记住路径前加 r,防止字符转义。
    高手过招第 7 期——离线识别普通验证码

二、对图片进行处理

  • 1. 保存验证码图片,对图片进行二值化处理
    我们对验证码图片进行截图保存,注意截图的位置需要自己进行调整,根据自身情况调整为最佳位置。
    高手过招第 7 期——离线识别普通验证码
from PIL import Image
#选择需要处理的验证码截图
img = Image.open('yzm.jpg')
#模式L”为灰色图像,它的每个像素用8个bit表示,0表示黑,255表示白,其他数字表示不同的灰度。
Img = img.convert('L')
#自定义灰度界限,大于这个值为黑色,小于这个值为白色。threshold可根据实际情况进行调整。
threshold = 135
table = [] 
for i in range(256): 
    if i < threshold: 
        table.append(0) 
    else:
        table.append(1)
#图片二值化
photo = Img.point(table,'1')
#保存处理好的图片
photo.save('yzm.jpg')

处理后的图片如下:
高手过招第 7 期——离线识别普通验证码

三、识别验证码

import pytesseract
from PIL import Image
#路径前加r防止转义
path = r'C:\yzm.jpg'
img  = Image.open(path)
yzm= pytesseract.image_to_string(img)
print(yzm)

四、总结

我在第二值化处理之后发现处理后的图片几乎没有噪点,所以我这里并没有对图片进行降噪,便可直接进行识别。
如果图片噪点比较多是要对图片进行降噪再识别,可以自己在网上搜索降噪的代码。
大家要根据自身情况对图片进行处理。

活动传送门 【高手过招】 高手过招第 7 期——关于验证码的处理方法及技巧