获取PDF文本
获取PDF文本
描述:获取指定PDF文件中指定页面的内容,并返回指定页面的文本字符串

属性说明
通用属性
前置延时- 设置组件功能执行之前等待的时间,单位为”ms“
后置延时- 设置组件功能执行完成后继续等待的时间,单位为”ms“
备注- 针对组件进行备注说明,便于理解,方便查找定位
目标属性
PDF文件路径- 指定的PDF文件所在的完整路径,输入格式为字符串, 也可点击文件夹图标进行文件的浏览选择;若传入的文件路径不存在对应的文件或文件格式错误,则运行时会抛出异常
密码- 输入目标PDF文件的密码,密码将以加密的暗文方式显示;PDF文件如果设置了密码,则需设置此属性,否则运行时会抛出异常
页面范围- 指定从哪些PDF文档页面中提取文本内容,可选项包括:所有页、指定页,”所有页“指从文档的所有页面提取文本内容,”指定页“指从文档的指定页面中提取文本内容,具体指定页范围在”指定页“属性中配置;默认选项为”所有页“
指定页- 当”页面范围“属性选择”指定页“时,此属性配置才显示,必须填入指定的页码,输入格式为字符串,多个页码之间用英文的逗号符合”,“隔开,例如'1,3',连续的页码需把开始页数与结束页数以短横线'-'相连表示,例如'1,3,5-9'表示的是第1、3以及5至第9页
返回值
- 返回值- 返回获取的文本内容,返回类型为字符串
使用示例
执行逻辑
添加【获取PDF文本】组件,点击“PDF文件路径”属性设置栏的文件夹图标,在弹出的文件浏览窗口中,浏览选择PDF文件:“示例文档.pdf”,”页面范围“属性选择:”指定页“,”指定页“属性填写:”1,5,7-14“,即从第5页以及第7到第14页的范围中提取文本;其它属性保持默认;把组件返回值连接变量”text“---> 使用【输出】组件,”输出“属性连接变量”text“,输出变量”text“的内容;然后与【获取PDF文本】组件相连


输出结果
运行流程后,将获取PDF文件“示例文档.pdf”中的第5页以及第7到第14页的文本内容,并输出这些信息

