跳至主要內容

关于数据抓取


关于数据抓取

简介

在应用或者网页中批量抓取表格或者结构化数据,保存为数据表格。

结构化数据是一种特殊类型的信息,具有一定的结构性,并以可预测的模式呈现。例如,百度搜索结果都有相同的结构:顶部的链接、URL 字符串以及网页描述。

1
1

数据抓取主要步骤

  1. 从工具栏区域点击“数据抓取”按钮,或在左侧组件栏/流程画布左键选择“数据抓取”组件,点击组件面板上的“拾取”image-20240624174501070按钮,弹出数据抓取窗口;
image-20240603102255415
image-20240603102255415
  1. 点击“开始拾取”按钮,进入拾取模式;
image-20240601140214795
image-20240601140214795
  1. 拾取元素后,根据提示,可选择“完成拾取”、“新增一列”、“继续标记”、“重新拾取当前列”;
  • 完成拾取- 将完成当前数据列的选取并退出拾取状态,选取的数据会被记录在数据拾取窗口中
  • 新增一列- 将完成当前数据列的选取,并自动进入下一列数据的选取过程
  • 继续编辑- 将继续点击元素确定元素相似性
  • 重新拾取当前列- 将清空当前的拾取状态,并重新开始选取当前列的数据
image-20240601140546834
image-20240601140546834
  1. 选择“完成拾取”,即会将拾取数据展示在数据抓取窗口中。预览数据后可对其进行列设置、克隆、删除、重新拾取操作;

注意

拾取完成后,多列之间可进行列左右位置的移动

image-20240601140651871
image-20240601140651871

列设置包含:

  • 列标题- 设置该列的标题字段
  • 获取内容- 默认获取数据表格的文本字段,可以调整为链接或元素属性,以获取该字段的超链接或该元素的属性字段。这些属性字段可以用于界面自动化组件的属性表中,如鼠标点击等操作
  • 数据解析格式- 仅在"获取内容"为文本时显示,它允许将文本字段解析为字符格式、数字格式或日期与时间格式
image-20240601140709861
image-20240601140709861
  • 克隆- 用户可在列操作中对该列数据进行克隆,克隆后即会生成与该列一模一样的数据列
  • 删除- 删除当前列,删除后将不在预览界面及最终拾取结果中展示
  • 重新拾取- 用户点击重新拾取按钮,重新拾取当前列数据,拾取后数据设置保持不变,按照拾取到的数据进行展示,若选择表格方式拾取则重新拾取按表格方式继续获取,若选择相似性方式获取,则通过相似性方式进行拾取
  1. 拾取后的操作,可对数据项进行保存、新增一列、从多个页面拾取操作。
  • 保存- 如果拾取目标数据列完成后,点击“保存按钮,则保存当前拾取数据并返回至标签页
image-20240601141028559
image-20240601141028559
  • 新增一列- 如果需要继续拾取其他数据列,则点击“新增一列”按钮,继续拾取列元素
image-20240601141009385
image-20240601141009385
  • 从多个页面进行拾取- 如果需要从多个页面拾取,在页面中开启“从多个页面拾取”,则可进行翻页按钮拾取
image-20240601140932392
image-20240601140932392