数据抓取
数据抓取
描述:在应用或者网页中批量抓取表格或者结构化数据,保存为数据表格
注意
数据抓取UIA、SAP、JAVA时只能抓取表格元素,抓取浏览器类型时可抓取表格元素及有规律且相似结构的数据
属性说明
通用属性
- 前置延时 - 组件功能执行之前等待的时间,单位为“毫秒”
- 后置延时 - 组件功能执行后等待的时间,单位为“毫秒”
- 备注- 组件备注说明,以便于理解和快速定位
拾取UIA模式:

窗口属性
- 标题 - 记录拾取的控件所在的窗口标题信息,可__*__号匹配
- 类 - 辅助标题的定位属性,可能存在多个相同标题,此时再判断类是否一致
- 类型 - 无效参数,已舍弃
目标属性
- 属性表 - 表格定位属性
表格设置
- 列设置 - 需抓取的列的格式设置参数
选项配置
- 限制大小 - 限制抓取的最大数据行数
返回值
- 输出到变量 - 保存到指定变量,方便后续在其他组件中直接调用,返回类型“pandas.core.frame.DataFrame”
拾取SAP模式:

窗口属性
- 标题 - 记录拾取的控件所在的窗口标题信息,可__*__号匹配
目标属性
- 表格ID - 表格定位属性
表格设置
- 列设置 - 需抓取的列的格式设置参数
选项配置
- 限制大小 - 限制抓取的最大数据行数
返回值
- 输出到变量 - 保存到指定变量,方便后续在其他组件中直接调用,返回类型“pandas.core.frame.DataFrame”
拾取JAVA模式:

窗口属性
- 标题 - 记录拾取的控件所在的窗口标题信息,可__*__号匹配
- 程序、类 - 定位元素的属性
目标属性
- 属性表 - 表格定位属性
- JVM应用名、JVM标题、JVM类名 - 定位元素的属性
表格设置
- 列设置 - 需抓取的列的格式设置参数
选项配置
- 限制大小 - 限制抓取的最大数据行数
返回值
- 输出到变量 - 保存到指定变量,方便后续在其他组件中直接调用,返回类型“pandas.core.frame.DataFrame”
拾取chrome、firefox、edge、qihoo、360企业安全浏览器、360安全浏览器、360极速浏览器、360极速浏览器X、奇安信可信浏览器、紫鸟浏览器模式:

窗口属性
- 标题 - 记录拾取的控件所在的窗口标题信息,可__*__号匹配
- 网址 - 拾取元素的网址信息,默认域名后通配符过滤,防止翻页后网址变化导致抓取失败
输入属性
- 提取元数据 - 提取的表格数据的结构数据,用于定位要抓取的数据
目标属性
- 属性表 - 表格定位属性
翻页按钮
- 消息模式 - 点击下一页按钮的模式,消息模式为不移动鼠标,系统通过后台完成消息发送和接收,由后台实现控件点击
- ScrollIntoView - 强制滚动网页至翻页按钮处
- 属性表 - 翻页按钮的定位属性
- 图片 - 拾取的下一页图片,默认勾选,翻页按钮采用图片点击方式实现
- 模糊匹配相似度 - 图片点击时用于判断当前页面的翻页按钮与拾取时的翻页按钮的相似性
表格设置
- 列设置 - 需抓取的列的格式设置参数
选项配置
- 内容限制 - 限制抓取的限制类型,可选最大页或最大行
- 限制大小 - 根据限制类型限制抓取的最大数
- 翻页等待超时(ms) - 翻页后最长等待页面加载时间
- 滚动至最底 - 抓取数据前,将当前网页滚动到最下方,避免网页的自动加载导致抓取数据不全的情况
- 滚动等待时间(ms) - 滚动到页面最下方后等待的加载时间
返回值
- 输出到变量 - 保存到指定变量,方便后续在其他组件中直接调用,返回类型“pandas.core.frame.DataFrame”
使用示例
执行逻辑
场景
在艺赛旗企业级智能自动化平台的控制台-自动化-流程列表中拾取前100条数据,只需要流程名称、流程类型、状态、创建时间、版本这几列,然后将拾取内容导出到新的excel表格中。
步骤
1、添加【打开浏览器/网页对象】组件,默认浏览器类型为chrome,点击网址处图标,选择艺赛旗企业智能自动化平台的流程列表网页地址:https://192.168.12.75/isrpa/console-app/process/list,是否最大化窗口选择:是

2、添加【数据抓取】组件,系统自动最小化设计器并弹出数据抓取弹窗--->点击“开始拾取”按钮,拾取流程名称第一个单元格的数据

在弹出的提示框中有两种拾取方式

(1)若选择“表格拾取”方式,系统会自动拾取整个表格内容

(2)若选择“元素相似性拾取”方式,系统只会识别与拾取元素相似的内容,也就是流程名称这一列的内容--->在弹出的弹窗中点击“新增一列”,继续拾取剩余列的内容,直至流程名称、流程类型、状态、创建时间、版本这几列都拾取完成--->点击“完成拾取”(在拾取过程中,如果出现拾取错误的情况,可以点击“重新拾取当前列”重新选择拾取)

3、拾取完目标列之后,点击标题处的图标进入“列设置”窗口,修改列标题,将默认值改为正确的列名称,如:流程名称,点击保存完成修改(这里还可以进行更多操作,如克隆当前列、重新拾取当前列、删除)


4、打开“从多个页面拾取数据”,拾取页面的翻页按钮(如果拾取有误可以点击图标重新拾取翻页按钮)

5、点击右上角的图标,将提取最大行数改为100行,即拾取前100条数据,点击“保存”按钮完成拾取

6、添加【创建Excel】组件,点击图标选择保存路径,如保存到桌面上:'C:/Users/dsh/Desktop'--->将文件名改为'流程列表.xlsx'--->是否覆盖选择:是

7、添加【单元格写入】组件,将【创建Excel】的“返回值”连接到“文件”处;将【数据抓取】的“返回值”连接到“内容”处,其他属性保持默认--->运行流程

输出结果
运行流程后,系统会自动拾取企业级智能自动化平台的“控制台-自动化-流程”列表中目标列的前100条数据,并保存到桌面表格“流程列表.xlsx”中
