在经典的金融理论中,理性投资者不存在情绪,他们对未来的预测是无偏的,因此相对地,在金融市场中,我们可以将情绪定义为对于未来股票投资的收益过于乐观或者过于悲观的有偏估计。这个理论是由De Long等人在1990年建立的DSSW噪音交易者模型,从理论上证明,过度乐观的情绪化投资者倾向于过度买入股票,导致资产价格上涨以及泡沫破裂带来的后续崩溃。
最早的情绪量化指标的测度是用市场交易数据进行的,比如用封闭式基金的折价数、换手率等,不过这些数据对于反映投资者的情绪来说较为间接,但是在过去的技术条件和数据条件下,间接指标的量化已经是最好的手段了。此后很多研究者也对此做出了改进,希望采用更为直接的手段来获悉投资者的观点,比如电话访谈或者非金融市场的数据(比如天气影响心情啥的),但是这些数据的可信度并不充分。
随着互联网和计算机技术的进步,近年来通过文本数据分析来进行股票市场情绪成为常见和常用的方法。互联网的存在可以为这类方法提供足够多的文本大数据(比如新闻、自媒体等等),相较于传统方法,这类文本数据包含的情绪信息更丰富,覆盖面也更广,很多炒股软件自己也提供了所谓的股票情绪提示,通常这些指数是他们是通过分析师预测的数据或者股票的一些交易数据得到的。但是这也存在一个问题,由于文本内容都是非标准化的,那么如何将文本中的情绪内容准确的提取和衡量出来,就是这种方法面对的最核心的问题。比如常见的文本转化的方法是“文字包(words of bag)”技术,即在不影响词汇顺序的前提下,把文本转化为一个文字为行、出现频数为列的矩阵,进而基于字典法进行文本分析。下面我们可以将常见的几种方法进行一个简要的介绍:
词汇分类字典法
这种方法需要预先人工依据词汇的含义,对词汇进行定义和分类,研究者可以依据某一类别的词汇出现的总次数除以文本总字数,来判断这一文本的情绪导向,积极词汇占比较高的文本意味着乐观情绪,而消极词汇占比较高的文本意味着消极情绪。很多研究都发现,媒体报道中出现更多的积极文本时,未来较短时间(比如一周)内的股市会有比较向好的表现,对于个股来说也有类似的效应。不过这个方法的一个重要前提是,如何合理地进行词汇库的建立和分类,很多研究会基于自己研究的需求来自行设计和编制,当然这就难以避免存在研究者的主观性问题以及词汇的遗漏问题。目前学界已经建立了一些公开的词汇库字典,比如著名的洛克伦与麦克唐纳字典(Loughran and McDonald Dictionary,详情可见参考文献里的paper)就提供了六个类别超过2600个词汇来进行情绪判断,很多研究者会考虑直接使用这类现成的词库来自行构建情绪指数。
文本词汇加权法
从文本学角度来说,很多词汇在一篇文本中出现的次数不多,大多数经常重复的词汇却并不重要,但是基于字典对高频词汇的定义却会影响我们对文本含义的判断,因此很多研究者不仅仅会对词汇和频数建立矩阵,还会在之前对词汇数量进行标准化处理,因为文本本身的长度也会影响我们的判断,尤其是在使用前一种方法的时候。所以很多研究者会对词汇进行加权处理,比如对于情感强烈的词汇,他们会赋予比较高的权重,再进行统计。文本词汇加权法和前述的字典法目前在很多研究中会同时采用,将加权法作为字典法的一个词频统计的有效补充。
朴素贝叶斯方法
这类方法就是目前大热的机器学习方法,并且在很多金融和会计研究中得到了应用。这一方法在给定数据集的基础上,这一方法使计算机学习该数据集中单词与其所属类别的对应关系,然后依据这一关系对其他文本进行分类,实质上就是计算一个文本属于某个类别的后验概率,然后将文本归入概率最大的那个类别。这个方法的好处在于,贝叶斯方法本身已经在其他领域中得到了极大的发展,可以即插即用,对于大数据来说有着天然的适用性,并且机器训练的方法可以在后期避免前述方法中研究者的主观倾向问题,尽量降低文本分析的误差。但是这一问题还是会存在训练集的设定问题(也就是根本上的主观性),目前看来训练集设定并没有一个统一的标准,这样类似研究其实从根源上就缺乏可以相互印证的基础。
文本特征方法
前述方法主要是从词频的角度来进行文本判断的,在文本量足够和字典设定合理的情况下,我们能够有比较大的把握对文本情绪进行判定。但是文本写作是复杂的,一些俗语、双关、隐晦的说法对于文字包方法来说,无疑是一种干扰。因此也有许多研究者试图通过文本的逻辑结构来进行文本情绪的分析。比较有代表性的方法是文本可读性指标,这个方法的主要应用对象是企业报表,因为很多报表之所以写得晦涩是为了掩盖企业出现的问题,所以Li等人就建立过迷雾指数(fog index)来进行分析,他们认为报表中句子的长度和单词复杂度可以衡量报表的可读性,并发现提供可读性低报表的企业其实经营能力也比较堪忧;还有一个有趣的方法是比较文本相似度,Huang等人利用上市公司发布盈利信息后分析师发布的报告,分析这些报告和盈利信息的相似度,如果分析师关注的问题和公司公告关系不大,那么就说明企业很可能存在问题。这些方法可以应用在对股票分析讨论内容的分析和比对之上,已经有研究证实,不同行业特征的股票存在不同的文本特征。
目前大多数对投资者情绪的文本研究内容都集中在企业的财务报表和新闻报道上,但是近年来文本挖掘范围越来越广,比如许多股票类BBS的内容都已经成为研究的对象,这对于研究广度的拓展无疑很有帮助。但是另一方面,类似文本的判定方式在文化上可能存在系统上的差异和表达方式上的差异,新闻审查、信息披露规则等问题也会对文本情绪判断造成影响,这些都是未来这一方法应用所应当考虑的问题。
【参考文献】
De Long J B, Shleifer A, Summers L H, et al. Noise Trader Risk in Financial Markets[J]. Journal of Political Economy, 1990, 98(4):703-738.
Huang A, Seuntjens E, Vankelecom H, et al. Analyst Information Discovery and Interpretation Roles: A Topic Modeling Approach[J]. Social Science Electronic Publishing, 2015, volume 28(3):343-356.
Li F. The Information Content of Forward-Looking Statements in Corporate Filings—A Naïve Bayesian Machine Learning Approach[J]. Journal of Accounting Research, 2010, 48(5):1049–1102.
Loughran T, Mcdonald B. When Is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10‐Ks[J]. Journal of Finance, 2011, 66(1):35-65.
发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/306034
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!