利用python读取EXCEL文档中的创建者信息

时间:2022-07-22
本文章向大家介绍利用python读取EXCEL文档中的创建者信息,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

文件创建者信息提取是文件拷贝检测的一个重要维度信息,前面WORD文档的创建者信息可以通过成熟的python-docx库来进行提取,而EXCEL文件的属性信息,目前还没有成熟的提取方法。

因此只能采取笨办法,即用解压缩文件工具,打开EXCEL文件,可以看到里面的文件树存在docProps/core.xml的目录。

core.xml文件打开的效果如下:

因此,可以采用读取压缩包中文件的方式来进行信息的抽取,对应的python代码如下:

def get_excel_author(excel_file):
    # open zipfile
    zf = zipfile.ZipFile(excel_file)
    # use lxml to parse the xml file we are interested in
    doc = lxml.etree.fromstring(zf.read('docProps/core.xml'))
    attr_nodes = doc.getgetchildren()
    # retrieve creator
    #ns={'dc': 'http://purl.org/dc/elements/1.1/'}
   # creator = doc.xpath('//dc:creator', namespaces=ns)[0].text
    return {'作者':attr_nodes[0].text,'创建时间':attr_nodes[2].text,'修改人':attr_nodes[1].text,
                '最后修改时间':attr_nodes[3].text}

显示的结果如下:

{'作者': None, '创建时间': '2018-10-15T15:04:42Z', '修改人': '77851', '最后修改时间': '2019-10-30T04:56:58Z'}