最简单的方法就是做词汇替换,比如在聊天的时候把语句中所有的比特币都换成区块链,把电脑下单换成人工智能,把写代码换成深度学习,最后再把报表整理叫做大数据,这样听起来一下子就非常高端大气了。
玩笑归玩笑,但是“大数据(Big Data)”这几年的确火得一塌糊涂,基本上所有的书店热书榜上,都出现过那本《大数据时代》的身影。最近一段时间似乎很少再有营销文拿大数据当噱头吸睛了,不过原因在于大数据已经成为金融应用中的常态(或者新常态),大家已经见怪不怪了。
但是同一切事物一样,我们习以为常的东西往往却难以说清,大数据也是一样,它到底指代什么,多大的数据才算大,以及为什么金融人对这个概念趋之若鹜,这也就是本文所讨论的核心话题。
大数据的“大”,往往被解读为4个V,即大容量(Volume)、高速度(Velocity)、真实性(Veracity)和多样性(Variety),通俗来说,大数据就是一切可记录信号的集合。对于金融研究而言,上述四个特征的核心价值在于,我们可以通过更丰富的真实数据,来拓宽我们实证研究的分析维度,获得更丰富的成果。
做过实证研究的人一定都头疼过数据的问题,计量分析对随机性的要求往往是借助数据样本量的富足才在技术上实现的。但是无论是时序上的时间限制,还是截面上的空间桎梏,都从数据上对金融研究存在影响。而信息时代数据膨胀无疑为解决上述问题提供了一把利器,而这把利器为我们研究金融问题也提供了两种截然不同的好处。
第一个好处自然是让我们坚定了既有的信念。事实上许多金融理念之所以尚未得到普遍接受,就是因为既往的研究缺乏更丰富的数据支持,或者已有数据与理论假设存在差异(例如缺乏统计理论基础)或者有严重的内生问题。翻看近年来的论文,你就会发现,许多曾经被猜测会影响市场收益(尤其是股票)和公司治理的因素,都随着相关数据搜集的丰富,而得到了一定程度上的验证,我们这个系列的文章也对这部分的内容多有记载,有兴趣的朋友可以点链接进行阅读。
另一个好处则是推翻了许多过去金融研究的结果。比如传统金融一直强调,市场中存在信息优势和信息劣势的投资者,如果一种股票的投资者主要是信息优势者,那么这类交易者的行为会显著影响股票的收益率。这一类最早的研究来源于Easley等人在1996年的研究,并且这一结论符合我们一贯的市场假设,所以也得到了广泛的认同。但随着近年来数据的富足,后续的研究者却在不同市场和更长的历史时间段里发现,信息优势者交易股票频率的变化是股票收益率变动的主要原因,而信息本身不带来任何额外的收益(Duarte和Young在2009年的研究成果),而研究范围一旦扩展到全球,那么信息优势与收益率的相关性就越弱(Lai等人在2014年的研究成果)。虽然这一问题尚未盖棺定律,但是传统信念被动摇已经是不争的事实。
当然金融学的发展本身其实也是一条不断坚定和不断反思的路径,上述分析并非大数据一人之功。但是下面提到许多内容,却的确拜大数据的发展所赐。比如近年来金融学科与其他学科结合趋势的加强,在很多方面都是大数据方法引入的结果,这一点在行为金融领域尤其显著,一些涵盖生物学(例如Frydman等人在2014年的研究)、心理学(Edmans等人在2007年的研究,值得一提的是,这篇论文讨论的是球迷对股票市场的作用,我们会在之后的连载中专门谈论一下这类文章,毕竟,马上要世界杯啦)的文献,都借助大数据的方法,拓宽了金融学本身的内涵。
而大数据方法本质上作为一种统计方法,其实最核心的价值在于为过去我们无法涵盖的内容提供了量化方法。例如对文本的转换和利用互联网数据(比如搜索量、发帖量)对投资者情绪或者市场趋势进行描绘的方法,已经在大量研究中广泛使用,我们在之前的推送中也有过涉及(字里行间都是情——股市情绪的文本分析法以及那些奇怪的金融研究(二十二):靠股票论坛信息炒股到底靠谱吗?——一份对东方财富网股吧的大型研究)
而大数据方法的另一个突破在于,我们对传统上难以量化的内容可以进行数据化的处理,因为大数据的一个核心理念就在于,一切皆可量化。这些研究目标所使用的往往是一些非结构化的数据,即视频、图片、音频等等,这些内容与传统意义上的数据大相径庭,传统方法也不具备处理这类数据的基本前提。比如很早以前人们就发现相貌本身会对收入、销售等结果产生影响,但是对于长相的评判大家都缺乏一个合理的标准,只能通过对照片人工打分来实现,这无疑使得数据的中性难以维持。而大数据方法的引入,则可以使用相应的数据建模方法对照片进行分析评估,例如Halford和Hsu在2013年的一项研究,就使用了计算机识别技术,对标普500在2000年以来CEO的照片进行打分,并统计出一个面部吸引力指数,结果发现CEO长得好看,可以对企业IPO、收购带来一定的溢价,如果CEO更频繁地出现在媒体中,那么这样的加成还会更显著。甚至有一些研究通过研究长相,来分析是不是长得好看有助于这些人从银行贷到款。
事实上从前面的内容我们也可以看到,大数据是从数据处理能力和数据丰富程度两个方向大大拓展了传统金融的研究范围,这无疑对我们之前提到过的金融研究中数据不足和内生性的问题提供了很好的解决思路。但是与此同时,我们也需要意识到一个问题,数据越大就一定越好吗?
对于研究者来说,数据爆炸其实是一把双刃剑,好处如前所述,但是坏处在于我们如何实现对这些繁复数据进行降维和简化的处理,以实现数据的精炼化。抛开传统统计方法中的高维矩阵、变量选择方法,还需要结合大数据发展带来的数据流等算法进行同步处理,这其实对金融研究者的统计学能力、软硬件设备都提出了更高的要求。
而大数据的一些统计方法,比如生态学常用的空间零膨胀泊松回归模型、环境数据时空零膨胀计数模型在金融研究中的应用,表明学者们依然继承了金融学研究传统的“拿来主义”传统,这类模型及其相应的数据处理方法是否符合金融学研究的本质和要求,在目前看来是存疑的,但是问题在于我们并没有一个得到公认的方法去探讨这样应用的合理性,这一点即便在统计学领域也依然未有定论。因此大数据作为一个快要过气的网红词汇,在金融中的应用依然处于一个摸索的阶段。但毫无疑问,金融研究尤其是金融的实证研究,在未来不可避免地会进入一个大数据的时代,高频、海量会是这个领域未来的关键词所在,一些金融学传统的理论大厦会因此倾覆,另一些新的大楼也正在奠基。
发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/306015
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!