如何通过一篇文章的 URL 抓取标题和内容

先上流程图:
如何通过一篇文章的 URL 抓取标题和内容

需求

100 篇网页中的文章,挨个抓出内容存成文本,并以标题命名。

效果是:

如何通过一篇文章的 URL 抓取标题和内容

分析实现

文章的 URL 已经有了,如下图:

如何通过一篇文章的 URL 抓取标题和内容

怎么抓取地址的看这个: 用 ISRPA 实现:爬取网页文章到自己的网站中

1.1 循环拼接真实地址;

如何通过一篇文章的 URL 抓取标题和内容

代码块打开文件,一行行读。这里用“打开文件”组件好像不行。

如何通过一篇文章的 URL 抓取标题和内容

套上循环,拼接域名 + 地址,url

1.2 打开页面,获取标题

如何通过一篇文章的 URL 抓取标题和内容

地址有了,就可以打开网页,并获取标题了 art_t
查找路径这里,找一个一定能选到标题的路径。

1.3 创建文件,并以标题命名

如何通过一篇文章的 URL 抓取标题和内容

以文章的标题命名文件名:'{}.txt'.format(art_t)

这里要补充说明一下:某些“特殊字符”是不能用做文件名的。可以用 rs.sub 正则过滤掉。

1.4 获取内容,写入文本,关闭文件

如何通过一篇文章的 URL 抓取标题和内容

通过“获取文本”,也能获得一段或几段文本的内容,还能自动去掉页面格式,保留 \t\n 等转义字符。
查找路径,要定位到包含文章的所有文本的标签。