"爬虫, 是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，它们被广泛用于互联网搜索引擎或其他类似网站，可以自动采集所有其能够访问到的页面内容，以获取或更新这些网站的内容和检索方式。 RPA 和爬虫的区别： 1、爬虫在处理网页内容时， ...."

Rpa 4942 号会员
新手学习 • 3 回帖 • 1.1K 浏览 • 2020-11-18 00:04:14

RPA 和爬虫

爬虫, 是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，它们被广泛用于互联网搜索引擎或其他类似网站，可以自动采集所有其能够访问到的页面内容，以获取或更新这些网站的内容和检索方式。

RPA 和爬虫的区别：
1、爬虫在处理网页内容时，直接操作 HTML，可以非常灵活和精细（借助正则表达式几乎无所不能）。而 RPA 操作的是可见的网页元素，模拟人的操作。相对来说，爬虫的功能更加强大，但 RPA 程序的开发难度相对爬虫简单。
2、爬虫则经常会被要求短时间内抓取大量数据，可能会对目标网站造成一定的流量压力。频繁和大量的爬取竞争对手网站数据，有可能会触发反爬虫机制。而 RPA 获取网页数据的数据量相对不多、而且频率相对较低的话，反爬虫机制大概率不会进行封锁。