评论数据分析 + RPA 机器学习 3-- 哪吒之魔童降世 - 评论抓取(抓取前分析)

票房数据分析 + RPA 机器学习 3–哪吒之魔童降世 - 评论抓取(分析)

评论数据分析 + RPA 机器学习 3-- 哪吒之魔童降世 - 评论抓取(抓取前分析)

评论数据分析 + RPA 机器学习 3-- 哪吒之魔童降世 - 评论抓取(抓取前分析)

这个是,此次我们要提取的评论的网站。

但是,这个网站的评论内容是隐藏的,只有部分是展开的。

这里我们借助了,selenium 进行点击展开。

因为,每个页面有几十个评论。所以可能点着点着就出现元素没有激活。这里就用进行多处的异常判断。增加隐藏等待,或者自己去判断元素是否被激活。

然后,获取评分星级,作者,发布日期,赞同,人数等等。

之后就是翻页提取。

这里星级比较有趣的就是,它放在了标签里面。而且还是一个复合标签,所以,我们这里采取舍车保将,提取 title1 的内容,然后进行替换为星级分数。

评论数据分析 + RPA 机器学习 3-- 哪吒之魔童降世 - 评论抓取(抓取前分析)

最后,附上 演示视频。

由于,展开的评论内容太多太多了,所以,我就只提取几页。老样子,源码在 GitHub