内网环境下破解国家外汇管理局验证码(四)

对于处理后的图片,我们运行一下 tesseract 进行识别:
内网环境下破解国家外汇管理局验证码(四)

import pytesseract
from PIL import Image

print(pytesseract.image_to_string(Image.open('QlnVhCv6.png')))

运行效果如下:
内网环境下破解国家外汇管理局验证码(四)

对于可能会有空格的部分直接用字符串将空格替换成空字符串即可。


另外,我之前有写过训练 tesseract 模型的方法,请看这里:Tesseract 训练自己的模型步骤
为了提高识别率,我们可以针对国家外汇管理局的验证码训练模型,这边为了节约时间直接提供训练好的语言库文件
f72025146bd0415db167a4af3ddb7c6d_yzm.rar

注意:这边只采用了四百多个样本作为训练集,想要效果更好可以自行获取更多的训练集进行训练

使用时将此文件解压后放在 Tesseract-OCR 的 tessdata 文件夹中,然后将pytesseract.image_to_string(Image.open('QlnVhCv6.png'))改为pytesseract.image_to_string(Image.open('QlnVhCv6.png'), lang='yzm')即可。

加入语言库参数之后的运行效果如下:
内网环境下破解国家外汇管理局验证码(四)