爬虫信息获取测试 shell

解决需求点:
1.poc 过程经常遇到一些网页内容,此时利用设计器获取文本的方式效率不是很高,使用爬虫的情况下效率会变高。
此时,通过 xpath 解析网页结构拾取信息是比较快捷的操作方式。而 scrapy 框架的 shell 终端是测试拾取成功与否
的更加快捷方式。

2. 以拾取论坛首页帖子标题为例:

>>> scrapy shell http://support.i-search.com.cn/

爬虫信息获取测试 shell

>>> response

爬虫信息获取测试 shell

>>>response.xpath("//div[@class='module']//h2/a/text()").extract()

爬虫信息获取测试 shell

通过以上简单方法,就可以直观的观察到爬虫结果获取情况,从而方便 poc 难点的继续进行。