离线验证码识别——使用 pytesseract 库(1)
-
安装 pytesseract 库
首先我们需要检查是否已经安装了 pytesseract 库,我这里使用的是 8.0 版本的设计器,是安装了 pytesseract 库的,这里我再重新安装一遍。
安装:cd 至 Python\Scripts,运行命令 pip3 install pytesseract
安装失败可参考:【 pip 安装第三方库报错解决方法 】 -
安装 Tesseract-OCR
我这里使用的是 4.1 版本 (64 位):tesseractocrw64setupv41020190314.exe
另外提供 32 位的安装包:tesseractocrw32setupv400beta120180414.exe
也可自行去官网下载所需版本:https://digi.bib.uni-mannheim.de/tesseract/
记住使用对应位数的安装包进行安装,安装时全部 next 即可。 - 找到 pytesseract.py 配置 tesseract_cmd
(1)我使用的是 8.0 版本的设计器,pytesseract.py 的路径如图,一般是在 Python\Lib\site-packages\pytesseract 下:
(2)打开 pytesseract.py 配置 tesseract_cmd,配置路径为第二步安装的 Tesseract-OCR 下的 tesseract.exe 的路径,默认路径为 C:\Program Files\Tesseract-OCR\tesseract.exe, 根据自身安装情况进行配置,记住路径前加 r,防止字符转义。
回帖内容已被屏蔽。
还有贴二,我是根据自身情况写的验证码识别,我所识别的验证码比较简单,纯数字也没有干扰线,代码我也做了注释,你可以根据自身情况参考。
我也没有做进阶处理机器学习等等操作,因为对我所识别的验证码来说完全够用了。这个识别对所识别的图片比较敏感,你最好截图的时候完全贴合目标图片进行截取。 离线验证码识别——pytesseract 简易验证码识别(2)
识别范围是那些呢?没用过不知道能力怎么样
谢谢楼主分享
不客气
感谢分享。
👍 👍
不错,实用的帖子