说得好还是做得好文本挖掘下的倍发A股年报情绪因子

摘要

·随着计算机技术的进步,基于语言学、金融学和计算机技术既有成果的文本分析成为金融学研究的重要方向,这也是倍发年报文本情绪系列因子的研究基础。

·倍发年报文本情绪系列因子的研究结果表明,自2001年以来,A股企业年报的平均情绪变得更加积极,但不同企业年报情绪之间的差异则开始减小,这样的同质化意味着各个企业愈发重视通过年报来与投资者进行沟通,并且对文本呈现出的情绪进行了有意的控制。

·通过构建剔除基本面影响的文本情绪因子可以发现,A股投资者会被年报中的积极情绪所吸引,即便这种积极情绪并没有相应的企业基本面因素作为支撑,这给予企业管理层更多的“操纵”年报语意的动力。

信息一直是以股票市场为代表的金融市场的核心,它一方面决定了投资者如何对各个时点的金融资产价值进行预测和决定,另一方面又动态地影响这些价值在不同时点之间的波动。因此,金融市场上每个人都是信息流博弈的参与方,这样的博弈结果既取决于信息掌握的数量,也取决于信息解读的质量。

说得好还是做得好文本挖掘下的倍发A股年报情绪因子

而信息在不同主体之间的流动,最终催生出金融资产本身的透明化,这样的透明化决定了金融定价的准确性。而其中最为主要的透明化工具,就是上市企业定期公布的财务报告。

以上市企业年报为代表的财务报告令企业对投资者来说不再是一个黑箱,它不仅以标准化的形式向投资者展示了企业在年末的经营状况,同时也传递出企业对过去一年经营情况的总结和对未来的展望,这使得年报成为一份对投资者的“期末答卷”,而投资者将其作为企业投资价值判断的一个基本依据。

对企业经营状况的财务分析作为公司财务研究的重要分支,构成了传统投资基本面分析的来源,客观数字及其传递的信息能够很快地被投资者传递和吸收。但与此同时,年报本身的文字性特征及其所蕴含的丰富潜在含义,由于技术和分析方法的限制,在过去则很少受到研究者和投资者的关注。

一、倍发年报文本情绪指数简介

正因为年报在投资分析中的重要性,和其作为一种单向的沟通方式的属性,才使得对年报文本情绪的识别变得十分紧要。比如年报的写作者(也就是企业方)会有通过语言“粉饰”年报的冲动,也会有隐瞒不利信息的笔法。这些“春秋笔法”也许会在阅读中被投资者发现或者识别,但其耗费的时间和精力又是十分巨大,如果不能够被识别出来,则又会对企业的投资价值产生误导,帮助上市企业实现一些不当的目的。

文本挖掘价值和文本挖掘难度之间的矛盾随着计算机技术的进步而得到了有效的缓解,以机器学习为代表的分析方法逐渐成熟,使得对企业信息披露的关注成为热点。一系列语言学、金融学和计算机科学交叉方法的应用使得人们用新的视角来审视年报中的信息含量,并最终转化为规范化的财务报告文本分析工具。这也是倍发年报文本情绪指数的来源。

首先,基于既有的文本情绪相关研究,在结合现代语言学研究成果和金融学特征的基础上,我们编辑生成了更适合进行金融分析的《倍发情感词库》,并通过词库中的积极词汇和消极词汇表,对年报中的语料进行匹配,继而计算每一份年报的情绪指数。

其次,我们收集并整理了超过33000份2001年以来A股上市企业的年度财务报告,进行规范的语句清理、分词处理并建立了完善的语料储存和索引系统,方便数据的选取和调用。

接下来,在相关研究的基础上,倍发科技构造了12个倍发年报情绪指数算法。这12个指数基于不同的编制方法可以分为以下三类,具体的计算公式详见倍发系统:

第一类是词频情绪指数,即统计年报中积极词和消极词的出现频率,并依此计算年报表达的情绪是偏向正面还是负面;第二类是加权情感指数,即在获得每份年报积极和消极词汇的基础上,按照LGN、TF-IDF的方法进行加权,来计算年报的情绪;第三类则是情绪强度因子,在对年报中的每个积极和消极词汇赋予情感强度之后,计算年报总体的情绪情况。在对每份年报都进行上述12个指标的计算之后,就生成了一个2005年以来所有A股上市企业年报的情绪因子库,用于投资者进行A股企业年报情绪的判断和识别,并且指标值越大,意味着上市企业年报文本中所蕴含的积极因素越多。

二、A股企业年报情绪的特征及变动趋势

1.倍发年报文本情绪因子的相关性

从前文对12个倍发年报文本情绪因子计算方法的介绍中可以发现,这12个因子从不同的侧面借助不尽相同的方法,对年报中所反映的情绪究竟是积极还是消极进行评价。首先需要明确的是,不同的计算方法会不会对年报情绪的衡量产生重大的影响。

我们计算了每种文本情绪因子每年所有年报的情绪指数均值,并计算了它们相互间的相关系数。从下面的相关系数情况可以发现,选取的六种年报情绪指数均值之间的相关系数非常高,这意味着即便选取了不同的切入角度和计算方法,各种因子对年报情绪的衡量结果是相近的,这在一定程度上保证了倍发年报文本情绪因子的可靠性和稳健性。

表1 倍发年报文本情绪因子相关系数矩阵

说得好还是做得好文本挖掘下的倍发A股年报情绪因子

【数据来源:倍发科技】

2.A股年报文本情绪的变动趋势

在对不同类型的倍发年报文本情绪因子的进行检验之后,我们可以利用既有数据,观察一下2001年以来A股年报文本的情绪变化情况。

图1选择了六种年报文本情绪因子,计算了自2001年以来A股年报的平均情绪。由于所有的情绪因子都是因子值越大意味着年报文本的用语越积极,因此从下图来看,自2001年以来,A股上市企业的年报平均积极程度是在逐步提高的,以下图中的六种年报文本情绪因子计算结果为例,A股上市企业年报平均每年积极程度会提高6.45%.而在过去16个样本年度中,只有六个年度年报情绪相较前一年变得更为消极,其中就包括2017年。

说得好还是做得好文本挖掘下的倍发A股年报情绪因子

△图1 A股年报文本情绪的变动趋势(值越大意味着越积极)

说得好还是做得好文本挖掘下的倍发A股年报情绪因子

△图2 A股历年年报情绪变动率

【数据来源:倍发科技】

而从图2结果中还可以发现,在历史上行情较好的区间(比如2006-2007年、2009-2010年、2014-2015年)中,A股年报中情绪都会出现相较前一年度更为积极的现象,情绪平均变动率最高的三年都在这几个区间之中,这在一定程度上表明,年报的提供者在编制年报时,的确会根据行情来调整自己在年报中的表达方式,尤其希望能在牛市行情中更多地吸引投资者,以获得更好的投资业绩。

与此同时,我们以年报TF-IDF加权情绪指标为例,计算了在这一方法下,历年A股年报最积极和最消极年报的情绪值离差及每年所有A股年报文本情绪值的标准差。结果如图3所示,我们发现相对历史而言,近年来不同股票间的年报情绪差异正在逐渐变小,这或许表明,A股企业普遍愈发注重年报这个与投资者沟通的渠道,并且加强了对年报信息的管理,再加上相关信息披露制度的不断规范,共同导致了年报情绪差异的逐步下降。

说得好还是做得好文本挖掘下的倍发A股年报情绪因子

△图3 A股年报情绪差异情况

数据来源:倍发科技

三、年报文本情绪因子的A股回测效果

接下来本文考察一下上述因子的回测效果。首先我们回测了最近五年上述12个因子在全部A股中的表现,回测采取分组回测的方式进行,按照情绪因子值大小对所有股票进行排序,F1组与F5组分别是因子值最大和最小,也就是年报文本情绪最高和最低的20%的股票。在表2中,本文展示了词频情绪、加权情绪和情绪强度三类因子的表现:

表2 各类型年报文本情绪因子回测表现

说得好还是做得好文本挖掘下的倍发A股年报情绪因子

【数据来源:倍发科技】

表2的结果显示,各类年报情绪因子并没有展现出特别的选股能力,对冲组合的年化收益(即做多情绪最积极的20%股票并做空情绪最消极的20%股票的组合年化收益)和IC,前一年年报文本情绪较积极的企业股票,在次一年并没有相对那些年报文本情绪没那么积极的股票有更出色的表现。

这一点在行业层面也有一定的体现,年报文本情绪更积极的股票在传媒、农林牧渔和汽车三个行业中的表现相对其他行业更为出色,但是在28个申万一级行业中,有13个行业文本情绪最积极的股票表现要劣于行业中文本情绪最消极的企业。

说得好还是做得好文本挖掘下的倍发A股年报情绪因子

△图4 年报情绪因子表现最好和最差的三个行业(申万一级)

【数据来源:倍发科技】

年报的文本情绪这种年度因子在选股能力上表现不佳并不意外,但这样的结果也从另外的角度表明,年报本身的情绪可能会和企业实际的财务表现出现偏差。在本文第二部分的分析中可以发现,企业对年报传递信息的功能愈发重视,这样的重视会让他们有更强的动力在企业实际表现不佳的时候,用更积极的文字内容来吸引投资者的注意或者抵消掉一部分企业实际经营的不足。

因此,我们在倍发系统中进行了如下检验,使用文本情绪因子对企业的基本面因素进行回归,并取回归残差作为新的情绪因子。这样的情绪因子表明剔除了企业基本面因素之后企业年报的情绪,如果值越大,意味着企业管理层所展现出的积极情绪越不可靠。

这里我们以年报词频情绪因子1作为因变量,按照下面的方法,对企业的EPS和市值进行对申万一级行业的所有行业,进行分行业回归,以剔除行业的影响,再计算残差作为新的情绪因子。然后使用新的情绪因子对最近五年的全部A股进行回测。

说得好还是做得好文本挖掘下的倍发A股年报情绪因子

其中sentiment_index是横截面上的企业i年报情绪因子,size为企业i对数处理后的市值,ε则为回归的残差项。

结果发现,新因子做多年报情绪积极股票、做空年报情绪消极股票的组合年化收益,相较没有剔除基本面因素时提高了3.69%。本文选取了另外11个因子,采取类似的方法进行了回测,也得到了基本相同的结论。

说得好还是做得好文本挖掘下的倍发A股年报情绪因子

图5 剔除基本面因素的年报词频情绪因子1回测情况

【数据来源:倍发科技】

这意味着,在A股中,企业在自身经营状况不佳时,通过在年报文本中采取更积极的表达方式,能够在一定程度上抵消掉基本面负面因素的拖累,而投资者其实并不反对企业采取这样的方式来“放卫星”,并倾向于相信文本中的“正能量”。

结论

本文对文本情绪分析的由来与原因进行了讨论,并介绍了倍发科技基于规范的文本分析方法和大数据技术,对企业年报情绪的计算和因子生成。

通过不同方法对A股2001年以来所有上市企业年报的分析,我们发现总体而言A股企业年报的情绪指数在逐渐升高,这意味着企业年报的积极性在不断提升,同时企业年报情绪的差异化程度则有所减弱,这表明企业愈发重视通过年报进行信息的传递。

尽管情绪因子在回测中的选股效果相对一般,但是另一方面,我们发现管理层通过调高自己年报语气的积极程度,依然可以对投资者产生吸引力。

我们后续还将推出一系列基于分析师研究报告、各类非标准化文本的大数据因子,并将持续跟踪文本分析对A股股票定价、投资者行为的影响,欢迎大家继续关注。

!免责声明:

本报告相关资料和观点来源均被倍发科技认为可靠,但倍发科技不对相关内容的完整性和准确性做出保证。本报告内容仅供参考,报告中的信息不构成直接投资的意见或建议,倍发科技不对因使用本报告内容而引致的损失承担责任,读者不应当以本报告内容取代其独立判断。

报告内容反映倍发科技不同研究人员的相关见解和分析方法,并不代表倍发科技及附属机构的立场。报告所载内容是研究人员基于当期信息提供的意见,因此有权对内容进行更改和基于更丰富的信息进行不同的判断。

发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/305923
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!

(0)
股市刺客的头像股市刺客
上一篇 2天前
下一篇 2小时前

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注