利用python自动写docx报告

最近在做一些数据方面的东西。虽然处理 excel 很方便。有时候为了不写周报,可以用自动化来写。比如可以从jira 里面捞数据。比如可以统计excel 里面数据，生成图表，生成doc, 自动发出来。

最后听人说Python的docx包不错，专门对于window下的word进行操作，所以尝试下对于Python的docx包，只能说功能非常强大，简单的说，可以用来创建/修改docx文档，对其标题、段落、表格、图片等进行处理，粗略扫了下，我的需求基本上都能满足，只是剩下如何用Python代码实现了

首先是安装，用pip安装即可:

pip install python-docx

Python-docx的官网文档https://python-docx.readthedocs.io/en/latest/index.html，可以去瞅瞅，有个初步的印象。

Word文档比较复杂，是二进制文件，所以常规的读取文件方法是没用的，所以docx包用不同的文本类型来表示：

最顶层是Document对象，其代表整个文档
block-level（块等级），段落是常见的块等级，换行符结尾算一个段落，表格、图片和标题均属于块对象；对于块对象属性，常见有对齐（alignment）、缩进（indent）以及行间距（space）等等
inline-level（内联等级），其属于块等级中，run是常见的内联等级，一个块对象可由多个run组成，特别是通过run可由设置不同属性样式；文字、句子、段落均可作为内联对象；对于内联对象属性，常见有字体、大小、对齐以及颜色等等

其实，如果用Python从头写一个word文档的话，对docx的包的一些用法的掌握需要熟练点，但函数和功能有点多（当然如果是一个简洁的word文档的话，那还是很简单的）；因此我选择一个取巧的版本，先制作一个word模板，里面包含一些不需要更改的文章段落、标题以及目录等，并设置好字体、大小以及表头（包括表格的样式）等；这样的话，我只需要将一些动态变化的文字、图片以及表格内容填入对应位置即可

以下是相关操作的方法：

首先导入docx包相关函数（有点多），打开模板文件

from docx import Document
from docx.shared import Inches
from docx.shared import Cm
from docx.shared import Pt
from docx.shared import RGBColor
from docx.enum.text import WD_ALIGN_PARAGRAPH
from docx.enum.table import WD_ALIGN_VERTICAL
from docx.oxml.ns import qn

document = Document("./模板.docx")

读取docx文件中的所有段落，paragraphs是一个列表，里面存储了所有的段落信息；查看某个段落是什么内容，可以用text方法，生成的是str类型，Python中支持字符串操作的方法函数都可对其操作

paragraphs = document.paragraphs
print(paragraphs[10].text)
type(paragraphs[10].text)

插入文字定位可以分为两种方式，一种是通过指定插入的段落数，比如要在第10段落后面接着加上文字：

paragraphs[10].add_run("XXX")

另外一种通过for循环paragraphs列表，判断某段落中是否有你的标注信息（定位信息），有的话，就在该段落后面加上文字

for par in document.paragraphs:
    if "[sign]" in par.text:
        par.add_run("XXX")

如果插入图片，对document对象操作，如:document.add_picture()，那么图片是默认生成在文档在最后面；如果想指定图片插入位置，也类似于上面文字插入方式，用run来操作；可以通过指定width和height参数来设定图片的大小，可以使用docx.shared.Inches()函数和docx.shared.Cm()函数设置尺寸

run = paragraphs[10].add_run()
run.add_picture("xxx.png", width = Inches(4.5))

对于文字属性的操作（字体、大小、颜色等等）有点麻烦，如果是对插入的文字的话，可以搭配add_run()方法使用，如：

pa = paragraphs[10].add_run("XXX")
pa.font.size = Pt(10)
pa.font.bold = True
pa.font.color.rgb = RGBColor(255, 0, 0)
pa.font.name = "Times New Roman"

对于一些中文字体上述用font.name方法是无效的，需要使用_element.rPr.rFonts的set()方法：

pa.font.name = u'微软雅黑'
pa._element.rPr.rFonts.set(qn('w:eastAsia'), u'微软雅黑')

如果需要多次对文字的属性进行操作，则最好将上述写成函数形式：

def paragraph_attribute(pa, size, family, r = 0x00, g = 0x00, b = 0x00, bold = None):
    pa.font.size = Pt(size)
    pa.font.name = family
    if bold == True:
        pa.font.bold = True
    pa.font.color.rgb = RGBColor(r, g, b)
    p = pa._element.rPr.rFonts.set(qn('w:eastAsia'), family)

pa = paragraphs[10].add_run("XXX")
paragraph_attribute(pa)

对于表格的操作，可以选择用docx包创建一个表格，并设置样式，然后分别对每行的单元格cell写入内容

table = document.add_table(rows = 2, cols = 2, style = "Normal Table")
table.cell(0,0).text = "XXX"

但是我会先在模板中自定义一个表格样式（这样可以使用自定义样式，不必要选择word中可选择的那些样式），然后写好表头（后续可在代码中修改表头，也可不修改），然后用add_row()方法在表格中增加行

tables = document.tables
row_line = tables[0].add_row()
row_line.cell(0,0).txt = "XXX"

表格的属性相比文字的要求可能会多一点，比如表格行高、列宽、居中等需求，这些都是可以设置的，如下：

tables[0].cell(0,0).width = Cm(3)    #每列必须相同，不相同取最大值
tables[0].rows[0].height = Cm(0.7)
tables[0].cell(0,0).paragraphs[0].paragraph_format.alignment = WD_ALIGN_PARAGRAPH.CENTER   #水平对齐
tables[0].cell(0,0).vertical_alignment = WD_ALIGN_VERTICAL.CENTER     #垂直对齐

对word文档修改完毕后，保存到指定docx文件即可

document.save("TEST.docx")

但docx包好似没有对目录进行操作的方法，比如我想生成自动化报告后，自动对目录的页码进行更新；对于这个需求，可以考虑使用win32com.client包，没仔细研究过，但是更新目录操作如下：

import win32com.client
word = win32com.client.DispatchEx("Word.Application")
doc = word.Documents.Open("./TEST.docx")
doc.TablesOfContents(1).Update()
doc.Close(SaveChanges=True)
word.Quit()

二、创建word文档

下面是在官文示例基础上对个别地方稍微修改，并加上函数的使用说明

from docx import Document
from docx.shared import Inches

document = Document() #添加标题，并设置级别，范围：0 至 9，默认为1
document.add_heading('Document Title', 0) #添加段落，文本可以包含制表符（t）、换行符（n）或回车符（r）等
p = document.add_paragraph('A plain paragraph having some ') #在段落后面追加文本，并可设置样式
p.add_run('bold').bold = True
p.add_run(' and some ')
p.add_run('italic.').italic = True

document.add_heading('Heading, level 1', level=1)
document.add_paragraph('Intense quote', style='Intense Quote') #添加项目列表（前面一个小圆点）
document.add_paragraph( 'first item in unordered list', style='List Bullet' )
document.add_paragraph('second item in unordered list', style='List Bullet') #添加项目列表（前面数字）
document.add_paragraph('first item in ordered list', style='List Number')
document.add_paragraph('second item in ordered list', style='List Number') #添加图片
document.add_picture('monty-truth.png', width=Inches(1.25))

records = (
    (3, '101', 'Spam'),
    (7, '422', 'Eggs'),
    (4, '631', 'Spam, spam, eggs, and spam')
) #添加表格：一行三列 # 表格样式参数可选：# Normal Table # Table Grid # Light Shading、 Light Shading Accent 1 至 Light Shading Accent 6 # Light List、Light List Accent 1 至 Light List Accent 6 # Light Grid、Light Grid Accent 1 至 Light Grid Accent 6 # 太多了其它省略...
table = document.add_table(rows=1, cols=3, style='Light Shading Accent 2') #获取第一行的单元格列表
hdr_cells = table.rows[0].cells #下面三行设置上面第一行的三个单元格的文本值
hdr_cells[0].text = 'Qty' hdr_cells[1].text = 'Id' hdr_cells[2].text = 'Desc'
for qty, id, desc in records: #表格添加行，并返回行所在的单元格列表
    row_cells = table.add_row().cells
    row_cells[0].text = str(qty)
    row_cells[1].text = id
    row_cells[2].text = desc

document.add_page_break() #保存.docx文档
document.save('demo.docx')

三、读取word文档

from docx import Document

doc = Document('demo.docx') #每一段的内容
for para in doc.paragraphs: print(para.text) #每一段的编号、内容
for i in range(len(doc.paragraphs)): print(str(i),  doc.paragraphs[i].text) #表格
tbs = doc.tables for tb in tbs: #行
    for row in tb.rows: #列
        for cell in row.cells: print(cell.text) #也可以用下面方法
            '''text = ''
            for p in cell.paragraphs:
                text += p.text
            print(text)'''

pandas 写入docx。

import docx
import pandas as pd

# i am not sure how you are getting your data, but you said it is a
# pandas data frame
df = pd.DataFrame(data)

# open an existing document
doc = docx.Document('./test.docx')

# add a table to the end and create a reference variable
# extra row is so we can add the header row
t = doc.add_table(df.shape[0]+1, df.shape[1])

# add the header rows.
for j in range(df.shape[-1]):
    t.cell(0,j).text = df.columns[j]

# add the rest of the data frame
for i in range(df.shape[0]):
    for j in range(df.shape[-1]):
        t.cell(i+1,j).text = str(df.values[i,j])

# save the doc
doc.save('./test.docx')

这样就可以建立一个模版，然后在相应的地方做一些数据统计和分析，自动发邮件就可以了。

更多精彩，请关注微信公众号：python粉丝团