"功能描述：提取 docx 格式 Word 文档中所有批注。 [图片] from zipfile import ZipFile from re import findall fn = r'带批注的测试文件.docx' with ZipFil ...."

luwenjun

Rpa 179 号会员
其他经验 • 1 回帖 • 1.7K 浏览 • 2020-03-31 17:27:48

Python 批量提取 docx 格式 Word 文档中所有批注

功能描述：

提取 docx 格式 Word 文档中所有批注。

from zipfile import ZipFile
from re import findall

fn = r"带批注的测试文件.docx"
with ZipFile(fn) as fp:
    try:
	    content = fp.read("word/comments.xml").decode("utf-8")
    except:
	    content = ''
if not content:
    print("这个文档没有批注")
else:
    for comment in findall(r"<w:t>(.*?)</w:t>", content):
	    print(comment)

运行结果：

交易码
网址