离线验证码识别——使用 pytesseract 库(1)

  1. 安装 pytesseract 库
    首先我们需要检查是否已经安装了 pytesseract 库,我这里使用的是 8.0 版本的设计器,是安装了 pytesseract 库的,这里我再重新安装一遍。
    安装:cd 至 Python\Scripts,运行命令 pip3 install pytesseract
    安装失败可参考:【 pip 安装第三方库报错解决方法

  2. 安装 Tesseract-OCR
    我这里使用的是 4.1 版本 (64 位):tesseractocrw64setupv41020190314.exe
    另外提供 32 位的安装包:tesseractocrw32setupv400beta120180414.exe
    也可自行去官网下载所需版本:https://digi.bib.uni-mannheim.de/tesseract/
    记住使用对应位数的安装包进行安装,安装时全部 next 即可。

  3. 找到 pytesseract.py 配置 tesseract_cmd
    (1)我使用的是 8.0 版本的设计器,pytesseract.py 的路径如图,一般是在 Python\Lib\site-packages\pytesseract 下:
    离线验证码识别——使用 pytesseract 库(1)
    (2)打开 pytesseract.py 配置 tesseract_cmd,配置路径为第二步安装的 Tesseract-OCR 下的 tesseract.exe 的路径,默认路径为 C:\Program Files\Tesseract-OCR\tesseract.exe, 根据自身安装情况进行配置,记住路径前加 r,防止字符转义。
    离线验证码识别——使用 pytesseract 库(1)