内置 OCR 识别引擎 (Tesseract)

随着 OCR 场景的增多,在某些用户环境下不能够使用在线的 OCR 识别;现在介绍一种内置的 OCR 识别引擎;
针对一些简单的验证码,或者一些简单的图片识别还算准备。

后续我们也讲研究 tensorflow 使用机器学习来形成自身的 OCR 机制,敬请期待 😄

具体使用方式:
* 下载安装引擎包 Com.Isearch.Tesseract.zip

;将其解压到 plugin 目录下
* 下载更新pytesseract.py 覆盖 plugin\Com.Isearch.Func.Python\Lib\site-packages\pytesseract\ 目录
* 自定义函数 get_tesseract_ocr

from PIL import Image 
import pytesseract

def get_tesseract_ocr(img_path,lang=None): 
    txt = None
    try:              
        image = Image.open(img_path) 
        txt = pytesseract.image_to_string(image,lang=lang)
        if txt != None:
            txt = txt.replace(' ','')
        print(txt)
        
    except Exception as e:
        raise e
    finally:
        return txt

lang=eng ,lang=chi_sim, lang=eng+chi_sim

  • 调用方式(如下图)
    内置 OCR 识别引擎 (Tesseract)