获取PDF表格
获取PDF表格
描述:获取目标PDF文件中指定页的表格数据。PDF中的所有表格转为pd.DataFrame列表

属性说明
通用属性
- 前置延时- 指可设置组件功能执行之前等待的时间,单位为“毫秒”
- 后置延时- 指可设置组件功能执行后等待的时间,单位为“毫秒”
- 备注- 指对组件进行备注说明,以便于理解和快速定位
目标属性
PDF文件路径- 指定的PDF文件所在的完整路径,输入格式为字符串, 也可点击文件夹
图标进行文件的浏览选择;若传入的文件路径不存在对应的文件或文件格式错误,则运行时会抛出异常
密码- 输入目标PDF文件的密码,密码将以加密的暗文方式显示;PDF文件如果设置了密码,则需设置此属性,否则运行时会抛出异常
页面范围- 指定从哪些PDF文档页面中获取表格,可选项包括:所有页、指定页,“所有页”指从文档的所有页面提取图片,“指定页”指从文档的指定页面中提取图片,具体指定页范围在”指定页“属性中配置;默认选项为“所有页“
指定页- 当“页面范围”属性选择“指定页”时,此属性配置才显示,必须填入指定的页码,输入格式为字符串,多个页码之间用英文的逗号符合“,”隔开,例如'1,3',连续的页码需把开始页数与结束页数以短横线'-'相连表示,例如'1,3,5-9'表示的是第1、3以及5至第9页
返回值
- 返回值- 返回获取的表格内容,返回类型为以dataframe为元素的列表
使用示例
执行逻辑
前置条件:准备一个名为“示例.pdf”的文件,使用【获取PDF表格】组件获取目标PDF文件的表格数据。

添加【获取PDF表格】组件,点击“PDF文件路径”属性设置栏的文件夹图标,在弹出的文件浏览窗口中,浏览选择PDF文件:“示例文档.pdf”,“页面范围”属性选择:“所有页”,即从PDF所有页中提取表格;其它属性保持默认---> 运行此组件

输出结果
运行流程后,将获取PDF文件“示例文档.pdf”中的表格内容
