关于 pdf 文档(图片形式存储)分页识别的代码

接触 RPA 依赖,遇到了很多的客户需要识别 pdf 文档是图片格式存储的,也就是我们常见的打印机扫描的 pdf 文件,但是这样的图片不能直接识别上面的文字,所有我们需要将 pdf 文件转换成图片的形式。网上虽然有很多的 pdf 装成图片的方法,但是都不是很理想。但是有一个第三方库,pymupdf 里面自带的额 fitz 库,就可以轻松解决这个问题。
首先我们需要下载 pymupdf 的库。网上第三方库可以下载 64 位的 pymupdf 库,下面这个链接里面有很多的版本,有需要的可以点开查看一下。
https://pypi.org/project/PyMuPDF/#files
代码如下,直接下载就可以了:
fa42493a056746daba8e068d9c41f9bb_demo_pdf.py
经过测试,发现处理速度很快:
关于 pdf 文档(图片形式存储)分页识别的代码

另外给大家提供一下其他的方法:
d931a7684a2945b9b7337dda1bbe1aa3_demo_pythonpdf.py
00809acc9eda47bd8ca9821f037d4a51_demo_pdf.py