wangwei
机器学习, 数据采集, 数据分析, web网站,IS-RPA,APP
其他经验 selenium RPA 机器学习 • 0 回帖 • 906 浏览 • 2019-08-26 16:42:45
机器学习, 数据采集, 数据分析, web网站,IS-RPA,APP
其他经验 selenium RPA 机器学习 • 0 回帖 • 906 浏览 • 2019-08-26 16:42:45
评论数据分析 + RPA 机器学习 3-- 哪吒之魔童降世 - 评论抓取(抓取前分析)
票房数据分析 + RPA 机器学习 3–哪吒之魔童降世 - 评论抓取(分析)
这个是,此次我们要提取的评论的网站。
但是,这个网站的评论内容是隐藏的,只有部分是展开的。
这里我们借助了,selenium 进行点击展开。
因为,每个页面有几十个评论。所以可能点着点着就出现元素没有激活。这里就用进行多处的异常判断。增加隐藏等待,或者自己去判断元素是否被激活。
然后,获取评分星级,作者,发布日期,赞同,人数等等。
之后就是翻页提取。
这里星级比较有趣的就是,它放在了标签里面。而且还是一个复合标签,所以,我们这里采取舍车保将,提取 title1 的内容,然后进行替换为星级分数。
最后,附上 演示视频。
由于,展开的评论内容太多太多了,所以,我就只提取几页。老样子,源码在 GitHub