数据抓取
数据抓取
描述:在应用或者网页中批量抓取表格或者结构化数据,保存为数据表格
注意
数据抓取UIA、SAP、JAVA时只能抓取表格元素,抓取浏览器类型时可抓取表格元素及有规律且相似结构的数据
属性说明
通用属性
- 前置延时 - 组件功能执行之前等待的时间,单位为“ms”
- 后置延时 - 组件功能执行后等待的时间,单位为“ms”
- 备注- 组件备注说明,以便于理解和快速定位
拾取UIA模式:

窗口属性
- 标题 - 记录拾取的控件所在的窗口标题信息,可__*__号匹配
- 类 - 辅助标题的定位属性,可能存在多个相同标题,此时再判断类是否一致
- 类型 - 无效参数,已舍弃
目标属性
- 属性表 - 表格定位属性
表格设置
- 列设置 - 需抓取的列的格式设置参数
选项配置
- 限制大小 - 限制抓取的最大数据行数
返回值
- 输出到变量 - 保存到指定变量,方便后续在其他组件中直接调用,返回类型“pandas.core.frame.DataFrame”
拾取SAP模式:

窗口属性
- 标题 - 记录拾取的控件所在的窗口标题信息,可__*__号匹配
目标属性
- 表格ID - 表格定位属性
表格设置
- 列设置 - 需抓取的列的格式设置参数
选项配置
- 限制大小 - 限制抓取的最大数据行数
返回值
- 输出到变量 - 保存到指定变量,方便后续在其他组件中直接调用,返回类型“pandas.core.frame.DataFrame”
拾取JAVA模式:

窗口属性
- 标题 - 记录拾取的控件所在的窗口标题信息,可__*__号匹配
- 程序、类 - 定位元素的属性
目标属性
- 属性表 - 表格定位属性
- JVM应用名、JVM标题、JVM类名 - 定位元素的属性
表格设置
- 列设置 - 需抓取的列的格式设置参数
选项配置
- 限制大小 - 限制抓取的最大数据行数
返回值
- 输出到变量 - 保存到指定变量,方便后续在其他组件中直接调用,返回类型“pandas.core.frame.DataFrame”
拾取Chrome、Firefox、Edge、Qihoo360模式:

窗口属性
- 标题 - 记录拾取的控件所在的窗口标题信息,可__*__号匹配
- 网址 - 拾取元素的网址信息,默认域名后通配符过滤,防止翻页后网址变化导致抓取失败
目标属性
- 提取元数据 - 提取的表格数据的结构数据,用于定位要抓取的数据
目标属性
- 属性表 - 表格定位属性
翻页按钮
- 消息模式 - 点击下一页按钮的模式,消息模式为不移动鼠标,系统通过后台完成消息发送和接收,由后台实现控件点击
- ScrollIntoView - 强制滚动网页至翻页按钮处
- 属性表 - 翻页按钮的定位属性
- 图片 - 拾取的下一页图片,默认勾选,翻页按钮采用图片点击方式实现
- 模糊匹配相似度 - 图片点击时用于判断当前页面的翻页按钮与拾取时的翻页按钮的相似性
表格设置
- 列设置 - 需抓取的列的格式设置参数
选项配置
- 内容限制 - 限制抓取的限制类型,可选最大页或最大行
- 限制大小 - 根据限制类型限制抓取的最大数
- 翻页等待超时(ms) - 翻页后最长等待页面加载时间
- 滚动至最底 - 抓取数据前,将当前网页滚动到最下方,避免网页的自动加载导致抓取数据不全的情况
- 滚动等待时间(ms) - 滚动到页面最下方后等待的加载时间
返回值
- 输出到变量 - 保存到指定变量,方便后续在其他组件中直接调用,返回类型“pandas.core.frame.DataFrame”
使用示例
执行逻辑
示例1:添加【数据抓取】组件,默认直接打开数据抓取窗口,也可点击拾取进入数据抓取窗口----->点击【开始拾取】点击文件夹内文件名----->点击保存----->执行组件


保存返回设计器的信息

输出结果
根据拾取信息获取到的表格数据

执行逻辑
示例2:打开网页----->拾取标题----->点击【完成拾取】----->点击保存----->执行组件



输出结果
执行抓取,完成抓取返回并输出DataFrame

