使用 read_html 来读取不能失去的 table

在实施过程中可能会碰到不能拾取的 table,或者读取表格不适用的情况。我们可以使用 pandas 的 read_html 来将 table 标签的内容转换成 df。然后在导入到 excel 中。

其中有 2 个坑:

第一:读取文件的语言(编码)

第二:读取的条数有最大数量限制。所以测试的时候要测试一下最大条数(5000 是 ok 的)