python 读取 docx 文件内容

1. 解释

  • 注意只能读取 docx 格式的文件, doc的无法读取

2. 安装模块

pip install python-docx

3. 代码 1: 读取内容

# 读取docx中的文本代码示例
import docx

p = "1.docx"
# 获取文档对象
file = docx.Document(p)
print("段落数:"+str(len(file.paragraphs))) # 段落数为13,每个回车隔离一段

# 输出每一段的内容
for para in file.paragraphs:
    print(para.text)

# 输出段落编号及段落内容
for i in range(len(file.paragraphs)):
    print("第"+str(i)+"段的内容是:"+file.paragraphs[i].text)

4. 代码 2: 读取 docx 的表格