前言

本文是刊载于《管理世界》2017 年第 12 期《多个大股东与企业融资约束——基于文本分析的经验证据》[1] 的阅读笔记。原论文参照 Hoberg 和 Maksimovic（2015）、Buehlmaier 和 Whited（2016）的方法，结合中国制度背景和语言习惯，采用文本分析方法构建了融资约束指标。本笔记主要记录其使用文本分析方法构建指标的过程。

指标构建过程

文本来源

上市公司年报中“管理层讨论与分析”（简称为 MD&A ）的文本。“管理层讨论与分析”直接或间接的涉及到公司资金状况的讨论，隐含了公司融资约束状况信息。

我国上市公司年报中“管理层讨论与分析”一般包括：

对报告期内公司经营状况、财务状况和投资状况的回顾，其中包括了主营业务状况、现金流状况、资产与负债状况、募集资金使用状况、投资状况、主要参股控股公司状况；
对公司未来发展情况的展望，其中包括行业格局与趋势、公司发展战略、经营计划和公司面对的主要风险等；
除此之外，还可能包含利润分配预案或资本公积金转增股本预案、履行社会责任情况等工作内容。

整体流程

提取公司年报中 MD&A（从 2000-2014 年年报中共获取了 25301 份）；
采用正则表达式检索出隐含融资约束信息的文本，并把相应的 MD&A 进行标记，纳入对应年度的融资约束文本集；
重复性检索、查阅矫正以保证隐含融资约束文本集识别的准确性；
计算余弦相似度，衡量全体样本和融资约束样本的相似度

ConstrainedScore

；

构建多元线性回归模型，剔除共性、行业特征等导致相似度失真的因素，模型残差

e_{i,t}

即为融资约束度量指标

。

技术细节

提取文本

在下载非金融行业公司历年年报后，使用程序提取和人工核对的方法提取。

这种涉及结构化文件和批量处理的工作，可以主要交由程序完成。首先是通过爬虫批量下载年报；然后通过分析 PDF 文档，需要提取文字板块的开始和结束特征（比如页码、标题等）；最后，可以运用 Python 读取 PDF 的库读入文件，再通过条件判断语句提取对应信息。

隐含融资约束的标准

Hoberg 和 Maksimovic（2015）认为融资约束体现为：投资计划、项目的推迟、搁置乃至放弃，因此，他们构造了两组“推迟投资”词语列表。

其中一组是有推迟、延期、搁置含义的动词词表；
另一组是与投资、项目和计划等意思相近的名词词表。
若在待识别文本中，动词词表和名词词表中的词语、词组同时出现，且相隔不超过 12 个词，则将其判定为有推迟投资含义的融资约束文本。

原文作者的创新：

没有通过“推迟投资”界定融资余额是，而是通过公司对资金状况的描述去识别。比如，公司明确表明融资能力有限、资金紧张，则被视为融资约束成本；
没有采用 12 词的窗口长度，而是采用正则表达式。

用于识别的正则表达式

"'[^。]*?((融资|资金|筹资))[^。]{0,6}?(难以|不能|无法|不足以)[^。]*'"

（除句号以外的任意长度字符串）+ 融资/资金/筹资+（六个字符长度域内的任意字符串）+ 难以/不能/无法满足/不足以 + （除句号以外的任意长度字符串）

"'[^。]*?((融资|资金|筹资))[^。]{0,6}?(成本|压力|难度)[^。]{0,4}?(升|增|高|大)[^。]*'"

（除句号以外的任意长度字符串）+ 融资/资金/筹资 +（六个字符长度以内的任意字符串）+ 成本/压力/难度 +（四个字符长度以内的任意字符串）+ 升/高/增/大 +（除句号以外的任意长度字符串）

利用正则表达式太过机械，可能引起误判。因此，在正则表达式的基础上，再利用条件判断语句和正则配合使用，构造出正则表达式组。

文本相似度

为何计算文本相似度？

度量全体样本与融资约束样本的文本相似度。将任意一份 MD&A 中的词汇、词频信息映射为可比较的向量。对每个向量标准化，根据余弦相似度原理，任意两个标准化词频向量的积，即为两份 MD&A 之间的文本相似度。通过余弦相似度方法，能够识别全体样本的融资约束程度，并以连续变量的形式进行呈现。

初步计算

公司

在

年的 MD&A 标准化词频向量记为

Vect_{i,t}

。

将隶属于融资约束文本集内的 MD&A 求标准化词频向量的均值，再次标准化后记为

ConstrainedVect_{t}

，即反映当年融资约束 MD&A 的平均用词特征。

Vect_{i,t}

乘以

ConstrainedVect_{t}

计算出

ConstrainedScore

，即为全体 MD&A 与当年的融资约束文本集的相似程度。

但是初步计算出来的相似度衡量的是单份 MD&A 与融资约束文本集的整体相似度，其中夹杂可能导致相似度失真的因素，诸如：

文本共性因素：不同 MD&A 的共同性文本内容，譬如标题、固定格式和样板语句等；
行业共性因素：每个行业的专有性名词、术语，隶属于同一行业的公司，MD&A 相似程度会更高。

针对上述问题，还需要在初步计算的基础上进一步清理才能得到更为准确的指标。

精细计算

问题	对策
不同交易所信息披露文本格式不同	将每年的 MD&A 按照不同交易所和深交所的不同板块进行划分
行业共性	以 2001 年证监会行业分类代码为标准划分行业，计算因行业特征引发的相似度

对历年隶属于各个板块的公司 MD&A ，求标准化词频向量的均值并做标准化处理，记为

BoardVect_{b,i,t}

，反映上市板

在

年的共同性信息披露内容。由

Vect_{i,t}

乘以

BoardVect_{b,i,t}

计算因 MD&A 共性内容导致的相似度。同样的方法，以 2001 年证监会行业分类代码为标准划分行业，记算因行业特征导致的共性。

借鉴 Hoberg 和 Maksimovic（2015）的方法，构建多元线性回归模型：

其中，残差

e_{i,t}

即为剔除上市交易所和行业特征引发融资约束后的融资约束相似度，也即文章最终采用的融资约束度量指标

。

参考资料

[1]

《多个大股东与企业融资约束——基于文本分析的经验证据》: https://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFQ&dbname=CJFDLAST2018&filename=GLSJ201712012&v=MDU3Njc0SDliTnJZOUVab1I4ZVgxTHV4WVM3RGgxVDNxVHJXTTFGckNVUjdxZlkrWnNGeXJuVUx2TElpSFlaTEc=

Notes | 文本分析方法构建融资约束指标

前言

指标构建过程

文本来源

整体流程

技术细节

提取文本

隐含融资约束的标准

用于识别的正则表达式

文本相似度

为何计算文本相似度？

初步计算

精细计算

参考资料