离线验证码识别——pytesseract 简易验证码识别(2)

  • 1. 安装第三方库
    参考资料: 离线验证码识别——使用 pytesseract 库(1)

  • 2. 保存验证码图片
    我们对验证码图片进行截图保存,注意截图的位置需要自己进行调整,根据自身情况调整为最佳位置。
    离线验证码识别——pytesseract 简易验证码识别(2)

  • 3. 对图片进行二值化处理

from PIL import Image
#选择需要处理的验证码截图
img = Image.open('yzm.jpg')
#模式L”为灰色图像,它的每个像素用8个bit表示,0表示黑,255表示白,其他数字表示不同的灰度。
Img = img.convert('L')
#自定义灰度界限,大于这个值为黑色,小于这个值为白色。threshold可根据实际情况进行调整。
threshold = 135
table = [] 
for i in range(256): 
    if i < threshold: 
        table.append(0) 
    else:
        table.append(1)
#图片二值化
photo = Img.point(table,'1')
#保存处理好的图片
photo.save('yzm.jpg')

处理后的图片如下:
离线验证码识别——pytesseract 简易验证码识别(2)

  • 4. 识别验证码
import pytesseract
from PIL import Image
#路径前加r防止转义
path = r'C:\yzm.jpg'
img  = Image.open(path)
yzm= pytesseract.image_to_string(img)
print(yzm)

  • 总结
    我在第三步二值化处理之后发现处理后的图片几乎没有噪点,所以我这里并没有对图片进行降噪,便可直接进行识别。
    如果图片噪点比较多是要对图片进行降噪再识别,可以自己在网上搜索降噪的代码。
    大家要根据自身情况对图片进行处理。