"首先，你需要一个解析 pdf 的包，我们在 iS-RPA5.0 之后内置了 pdfplumber 的包，选择他的主要原因是这个包对表格处理比较好，而且他是 python 的原装包，不是 java 之类转过来的包，那么我们看看简单的例子： i ...."

linping

Rpa 5 号会员
经验分享 RPA PDF • 0 回帖 • 3.4K 浏览 • 2018-07-03 11:00:01

在设计器中尝试解析 PDF 数据

首先，你需要一个解析 pdf 的包，我们在 iS-RPA5.0 之后内置了 pdfplumber 的包，选择他的主要原因是这个包对表格处理比较好，而且他是 python 的原装包，不是 java 之类转过来的包，那么我们看看简单的例子：

import pdfplumber   #导入pdf包
import re           #导入正则表达式包 
pdf = pdfplumber.open("path/to/file.pdf") #加载pdf
page0 = pdf.pages[0]                      #取出第一页，你可以用for来遍历所有页面
tables = page0.extract_tables()           #从page0里面取出多个tables
texts = page0.extract_text()              #从page0里面取出所有文本
results = re.findall(r"([0-9]{1,3}(,[0-9]{3})*\.[0-9]+)", texts) #从文本中提取带千分位和小数点的数字

请注意，pdfplumber 缺省通过表格线来区分行和列，所以下列情况是无法提取出表格的：
* 你的表格是图片，通过选择可以确定是否图片
* 你的表格不是用线来分隔，或者分隔不全，例如列用线，行没线
这种情况下，你就需要尝试：
page0.extract_tables(table_settings={})
table_settings 的写法参考：
Github 上的 Pdfplumber
这个需要大家多多尝试，另外正则表达式学习也是很关键的，因为你可以使用正则表达式来提取 page0.extract_text() 中提取到的文本。