高手过招第八期—PDF 系列组件:真的很强大

1. 首先是 pdf 拆分组件

高手过招第八期—PDF 系列组件:真的很强大

最低为每页拆分,可多(N)页进行拆分。

达成一个效果:

将 N 个图片组成的 PDF 文件,每页一个为单位,可拆分成 N 个单一 pdf。每个 pdf 含一个图片。

测试 4 张图片为一起的 pdf。如图:

高手过招第八期—PDF 系列组件:真的很强大

2. 获取 PDF 文本

准备一个银行明细单

高手过招第八期—PDF 系列组件:真的很强大

进行 pdf 文本获取

高手过招第八期—PDF 系列组件:真的很强大

真的很强啊! 可以把整个 pdf 文本内容都识别出来,只需要 python 正则,解析数据就可以提取数据出来了。太 NB 了

高手过招第八期—PDF 系列组件:真的很强大

3. 获取 pdf 页数。这个可以获取总页数

4. 获取 pdf 信息。 (获取 pdf 这个对象的信息,pdf 创建时间、修改时间、作者、标题等 pdf 信息)

高手过招第八期—PDF 系列组件:真的很强大

5. 获取 pdf 图文 (会把 pdf 内,出现的所有图片!!! 将 pdf 内的图片在项目路径下 tmp 目录中:进行保存。刚好和上面的文本前后呼应,一个处理文本,一个处理图片,)

高手过招第八期—PDF 系列组件:真的很强大

6. 获取 pdf 表格 (会将 pdf 内出现的表格进行获取,并输出)

高手过招第八期—PDF 系列组件:真的很强大

以上是新版本的 pdf 组件的功能, 再次强调:真的很强大,各位可以试试