"先上流程图： [图片] 需求 100 篇网页中的文章，挨个抓出内容存成文本，并以标题命名。效果是： [图片] 分析实现文章的 URL 已经有了，如下图： [图片] 怎么抓取地址的看这个： https://support.i-search ...."

不小心

生活就是战斗！
应用分享 • 5 回帖 • 2.3K 浏览 • 2021-06-28 12:50:06

如何通过一篇文章的 URL 抓取标题和内容

先上流程图：

100 篇网页中的文章，挨个抓出内容存成文本，并以标题命名。

效果是：

文章的 URL 已经有了，如下图：

1.1 循环拼接真实地址；

代码块打开文件，一行行读。这里用“打开文件”组件好像不行。

套上循环，拼接域名 + 地址，url。

1.2 打开页面，获取标题

地址有了，就可以打开网页，并获取标题了 art_t。
查找路径这里，找一个一定能选到标题的路径。

1.3 创建文件，并以标题命名

以文章的标题命名文件名：'{}.txt'.format(art_t)，

这里要补充说明一下：某些“特殊字符”是不能用做文件名的。可以用 rs.sub 正则过滤掉。

1.4 获取内容，写入文本，关闭文件

通过“获取文本”，也能获得一段或几段文本的内容，还能自动去掉页面格式，保留 \t\n 等转义字符。
查找路径，要定位到包含文章的所有文本的标签。

5 回帖

不小心 • 2021-06-30 16:12:19 4楼

TDK 还是要人工优化的。收录的问题用采集解决，排名的问题由第三方解决。不采集，纯靠手工的也不现实啊。官网里，也要采集你发的文章，就当提前给你打招呼了啊。哈哈。

1 回复 0 0 0

不小心 • 2021-06-30 16:07:04 2楼

这个办法也是挺好的。不过我爬来的文章是要手工分类的。例如：文章库共 8 个子类，每个子类要求 2000 篇。工程量不大，每天爬上 1000 篇够了，这比人工快的多，满足了。

1 回复 0 0 0