一 本文摘要
预测股票价格是一个具有挑战性的问题,因为股票市场的波动性和非线性特性使其难以准确预测。近年来,一些新的方法在股票价格预测中取得了突破性的成果,它们利用外部知识来更好地理解股票市场。然而,目前对于这些方法的综合总结还比较欠缺。
在本文中,我们系统地介绍了如何从各种非结构化的数据源获取外部知识,并将其纳入股票价格预测模型中。外部知识可以采用不同的数据结构来建模,我们将其分为两类:一类是非图形化格式的知识,它包括与每支个股有关的背景信息和多媒体描述;另一类是图形化格式的知识,它捕捉了股票市场中各个股票之间的相互关系和依赖。我们还探讨了如何将外部知识与历史价格特征相结合,以提高股票价格预测的准确性。此外,我们还收集了相关的数据集,并对未来在这个领域可能的研究方向进行了讨论。
二 本文简介
当涉及股票价格预测时,传统的方法主要使用时间序列数据,如历史价格和金融技术指标,来进行预测。然而,股票市场的价格变动是非常随机和不稳定的,导致传统方法的准确性有限。为了克服这些限制,知识增强方法应运而生。
知识增强方法利用外部知识来理解股票市场行为。这些外部知识可以包括公众情绪、股票之间的关系、金融事件和股票的内在属性等。传统方法往往忽视了股票市场的相互关系,将每支股票视为孤立的实体。而知识增强方法能够考虑到股票市场的高度相互关联性,比如上市公司之间的依赖关系、金融机构对股票的持有关系、产业链以及事件引起的溢出效应等。
知识增强方法的挑战主要体现在两个方面:知识获取和知识整合。知识获取是指如何获取和处理外部知识,以便能够轻松地整合到预测模型中。考虑到金融市场的复杂性,获取高质量的外部知识对于提高预测模型的准确性非常重要。
知识整合是指如何将来自不同来源的知识整合到预测模型中。这些模型可以采用各种技术,如深度学习模型和基于图的模型。此外,将历史时间序列数据与外部知识相结合也是一种常见的方法。本文的重点是概述已有的工作,介绍如何将外部知识应用于股票价格预测模型中。我们将外部知识分为非基于图的知识和基于图的知识两个组别。非基于图的知识表示与个别股票有关的上下文信息和多媒体描述。基于图的知识则表示股票市场中多支股票之间的相互关联和相互依赖关系。为了有效利用不同类型的知识,我们需要不同的知识获取和整合模型。通过深入探讨这些方法,我们希望为研究人员提供全面的了解和实际指导,以便他们能够有效地将外部知识整合到他们的模型中。此外,我们还强调了时间序列数据和外部知识的结合,这是以前的综述所没有涉及到的。
本综述的贡献和结构如下:
-
我们首先回顾了不同类型的知识如何提升股票预测模型的性能。我们将这些知识分为非基于图的和基于图的两类。 -
我们接着介绍了从各种数据源获取知识的模型,比如金融新闻和社交媒体帖子。我们分别介绍了非基于图的和基于图的知识获取模型。 -
我们进一步探讨了将知识融入股票预测模型的模型。我们将时间序列数据和知识结合的技术划分为两种方式:顺序融合和并行融合。 -
我们总结了现有的金融领域知识库,并对它们的特点进行了详细的统计分析。 -
最后,我们提出了知识获取和知识融入的研究挑战和未来方向。这包括使用AutoML进行知识选择、应对金融时间序列的不规则性和粒度问题、通过多模态学习融合股票知识以及在股票市场中应对概念漂移的知识增强泛化方法。
三 背景知识
股票价格预测是指通过分析股票市场中的数据,尝试预测未来股票价格的任务。这个任务可以是回归任务(预测价格的具体数值)、分类任务(预测价格是上涨还是下跌)或排名任务(预测股票的相对排名顺序)。
过去的股票价格预测研究主要使用历史股票价格数据和一些金融指标来进行预测。金融指标可以包括交易量、指数移动平均、市净率等。传统的统计方法如ARIMA和指数平滑模型也被应用于股票价格预测。随着机器学习和深度学习技术的发展,人们开始探索如何利用这些方法来提高股票价格预测的准确性。
除了历史数据和金融指标,最近的研究还将外部知识纳入股票价格预测中。这些外部知识可以来自非结构化文本数据,如新闻文章、社交媒体帖子和财务报告,也可以来自图形数据,如股票之间的关系图。外部知识可以提供有价值的信息,例如公众情绪、股票之间的关联关系和财务事件。图形数据可以存储复杂的关联关系,例如股票之间的关系、供应链和行业相互依赖关系。通过利用图形中的知识,可以提高股票预测模型的性能,并且还可以可视化股票市场中实体之间的关系和依赖关系。
四 知识获取
当从金融市场中获取知识时,我们可以使用各种数据源,包括文本数据(如新闻文章和社交媒体帖子)和音频数据。这些数据源提供了有关市场的信息,可以帮助我们做出更好的投资决策。
4.1 非基于图的知识
对于文本数据,金融新闻是一种重要的信息来源,它包括来自专业新闻机构、公司公告和分析师建议的报道。社交媒体也是一个有用的数据源,因为它提供了公众对市场问题的实时情绪和兴趣。我们可以使用文本分析技术来从这些数据中提取知识。
一种常用的方法是提取描述性特征,这些特征是从文本中提取出来的有用词汇或短语。我们可以计算每个词汇或短语在文本中的频率,并将其作为特征。这样可以生成一个高维稀疏的文本向量,表示文本的特征。另外,我们还可以提取情感特征,通过对文本进行情感分析,了解投资者对市场的态度。情感特征可以帮助我们了解市场情绪的变化。语义特征是通过应用自然语言处理(NLP)技术,将文本数据转化为固定长度的向量,以捕捉文本中的上下文和语义信息。研究人员使用机器学习方法(如Word2vec和GloVe)和深度学习方法(如Transformer、BERT和FinBERT)来实现这一目标。然而,由于特定的金融术语在不同的上下文中可能产生不同的影响,静态嵌入无法很好地表示文本。为了解决这个问题,一些研究采用了非静态表示方法,如基于双向LSTM的模型ELMo。
除了文本数据,我们还可以使用音频数据来获取知识。例如,我们可以分析公司CEO在盈利会议中的语调和情绪,以了解他们对公司前景的看法。音频特征是从音频录音和相应的转录中获取的。盈利电话会议被认为是一个重要事件,与股市波动和交易量增加相关。在这些电话会议中,公司的CEO或管理代表报告上个季度的财务业绩并提供未来指导。然而,音频数据本身存在噪音,给知识获取带来困难。研究人员通过丢弃低质量数据或只选择高管(通常是CEO)所说的句子来解决这个问题。他们使用预训练模型获取转录的词嵌入,并使用Praat软件获取声音特征,如音高、强度和音调。然后,他们将词嵌入和声音特征在句子级别上进行对齐。
4.2 基于图的知识
金融知识可以使用图结构有效地存储和表示。在金融领域,图结构可以用来表示公司之间的关系和股票与其他实体之间的关系。这种图结构可以帮助我们理解和分析股票市场中股票之间的相互作用和影响。
-
公司关系图:每家公司在图中表示为一个节点,而连接则定义了公司之间的关系。这些关系可以是合作关系、竞争关系、上下游关系等。通过分析公司关系图,我们可以了解公司之间的相互作用和影响,从而更好地理解市场中的股票动态。 -
外部关系图:外部关系图主要关注股票与其他实体之间的关系,包括股票-行业关系、产业链连接、公司位置、交易所关系等。这些关系可以帮助我们了解股票与其他实体的关系,并更好地预测股票的市场表现。 -
高阶股票间相关性:高阶股票间相关性表示股票之间的群体关系,可以使用超图进行建模。超图可以有效地表示多个股票之间的复杂相关性和依赖关系。 -
股票之间的外部交互:股票之间的外部交互可以通过二分图表示,其中节点被分为两个独立的组,并且同一组中的节点之间没有连接。这种图结构可以表示股票与投资者、概念或雇员之间的交互关系。 -
关联事件:关联事件知识可以通过连接具有相同实体的事件元组来表示股票市场的概览。通过提取和结构化财经新闻等文本数据,可以构建事件元组,并通过连接它们来形成事件图。 -
时间模式:在股票市场中,公司之间的关系随时间而变化,因此时间模式知识对于理解市场波动性非常重要。可以使用动态图来表示股票市场的时间知识,其中边可以在不同的时间步骤中插入或删除。
五 知识融合
在将金融知识纳入股票价格预测任务中时,关注以下三个关键因素至关重要:1)理解外部知识与股票价格之间的依赖关系;2)考虑知识影响的持续时间;3)整合异构知识。
5.1 非图结构的知识
非图结构的知识是指那些不以图结构表示和表达的知识形式。在股票价格预测的上下文中,非图结构的知识可以包括描述性特征、情感特征、语义特征和音频特征等。以下是对这些非图结构知识的详细解释:
-
描述性特征知识:描述性特征通常被视为具有高维稀疏特征的静态特征。先前的研究使用支持向量机(SVM)等机器学习算法,并采用词袋向量或文档N-Gram矩阵等输入来表示描述性特征。然而,由于缺乏上下文信息,这种知识在最近的研究中的应用受到限制。 -
情感特征知识:情感特征可以作为历史技术指标使用,并被处理为知识获取过程中的时间序列数据。预测模型可以包括机器学习模型(如SVM)、循环神经网络(RNN)模型(如LSTM、GRU)、基于Transformer的模型(如BERT)和集成学习等。通过分析每日关于股市的用户评论,可以得到大量情感分数,构成一个高维特征空间。一些研究通过聚合每日所有用户的情感分数,得出整体情感倾向。为了克服特征维度过高的挑战,一些研究采用了集成方法,通过构建情感特征子空间,并通过集成算法将它们组合起来,从不同用户情感中获得集体知识来提高整体预测性能。 -
语义特征知识:语义特征具有较低的维度,并提供更复杂的上下文信息。先前的研究通过数据合并策略将语义特征与数值型股票数据进行连接,以建立新闻文章和股票价格之间的时间对齐。然而,不同新闻在发布日期上可能产生不同的影响,因此一些研究采用了注意机制和序列模型(如双向门控循环单元)来捕捉新闻的影响。此外,注意层和不同日期的重要性评估也被引入以增强时间信息。 -
音频特征知识:音频特征涉及将音频记录与相应的转录对齐,并将其作为序列数据输入深度学习模型中,以捕捉与历史股票价格之间的依赖关系。研究人员使用基于循环神经网络(如双向LSTM)或基于Transformer的方法来学习时间依赖关系。然而,盈利电话会议的周期性会对与股票价格序列的对齐提出挑战。一些研究通过预测盈利电话会议后n天内股票价格的波动性来整合音频特征和股票价格预测。
这些非图结构的知识可以与图结构的知识相结合,以提供更全面和准确的股票价格预测。通过综合利用描述性特征、情感特征、语义特征和音频特征等知识来源,可以获得更多维度的信息,从而提高预测模型的性能。
5.2 基于图结构的知识
基于图的知识在预测模型中的应用是一项具有挑战性的任务,原因如下:
-
大规模的金融图:金融图可能非常庞大,这使得有效处理和分析数据变得困难。 -
异构的实体和关系:金融图中的实体和关系可能是异构的,导致建模和解释的复杂性增加。 -
隐含影响的事件信息:事件信息对金融实体有隐含影响,例如股票之间的相关影响和跨股票影响,这进一步增加了将图知识纳入预测模型的复杂性。 -
动态知识的挑战:金融图是不断变化的,传统的静态建模技术可能无法准确捕捉这些变化。
为了解决这些挑战,研究人员受到图嵌入方法的启发,逐渐将基于图的金融知识纳入股价预测模型中。这些方法旨在获得图中节点的低维向量表示,同时保留图的拓扑结构和节点信息。主要有两种类型的图嵌入学习方法被使用:基于随机游走的方法和基于图神经网络(GNN)的方法。
基于随机游走的方法利用表征学习和词嵌入的概念,将图中的游走视为句子的等价物。首先从图中生成一系列节点序列,然后将这些游走序列应用于Skip-Gram模型,以保留图的结构信息并考虑目标节点的上下文路径信息。这些方法认为,强连接的两个节点在位置上应该相似且接近。通过计算节点嵌入的相似性,这些方法可以识别与目标股票最相关的公司。然后,将这些相关股票的嵌入表示取平均,并与目标节点的嵌入表示连接起来。这个合并的嵌入向量被输入到基于LSTM的编码器中进行处理。
尽管基于随机游走的方法在学习目标股票的潜在表示方面取得了成功,但由于节点之间缺乏参数共享以及无法处理动态或未知图的能力,它们在更复杂的图相关任务中的实用性受到限制。最近的研究通过使用基于GNN的方法来学习节点表示来解决了这些限制,使得图建模更加高效和适应性更强。GNN代表图神经网络,是一种将深度学习神经网络应用于图上的模型。根据传播方式的不同,GNN可以分为图卷积网络(GCN)、图注意力网络(GAT)等等。这些基于GNN的方法通过节点之间的信息传播和聚合来学习节点的表示,从而更好地应对复杂的图结构和动态变化。
为了研究不同类型关系的分离嵌入,需要使用知识整合方法来处理异质股票间的相关性。目前,大多数方法将整合模型的输入设置为一组邻接矩阵 A ∈ R|V|×|V|×k,其中 |V| 是节点数量,k 是特征向量的维度。对于每个关系 r ∈ R,都存在一个邻接矩阵 Ar ∈ R|V|×|V|,表示该关系下节点之间的连接情况。每个节点的特征向量可以表示为 Xr = [x1r, x2r, …, x|V|r],其中 xi r 是节点 i 在关系 r 下的特征向量。然后,可以使用异质图嵌入方法,如 HIN2Vec、Metapath2Vec等,来学习节点的嵌入表示。
根据学习到的节点嵌入表示和图结构特征,可以构建预测模型来进行股价预测。常用的预测模型包括多层感知机(MLP)、长短期记忆网络(LSTM)和图卷积网络(GCN)等。这些模型可以利用历史股价序列、节点嵌入表示和图结构特征进行训练,并输出未来股价的预测结果。
目前的研究主要依赖于超图卷积机制来处理高阶股票间的相关性。这些方法通常首先利用 LSTM 和时间注意力从股票时间序列数据中捕捉长期的时间特征,并将这些特征输入到超图卷积网络中。为了有效地连接时间注意力和超图卷积,一些研究应用了一种超图注意力机制,该机制可以动态地为每个超边分配权重,这些权重基于其对应的股票时间特征。
融合二部图的挑战在于其异构性,因为涉及的实体通常位于不同的特征空间中。跨这些不同空间聚合信息存在困难,因为属性的异构性。尽管如此,在金融领域的任务中,将二部图纳入考虑的主要目标是促进与相关股票有关的概念信息的聚合。为了解决这个挑战,一些现有方法将二部图投影到同质图中,同时保留原始图中的交互信息。在基于投影的方法中,只保留了股票实体。
链接事件是将事件的语义信息与股票价格预测模型相结合的方法。研究人员采用了不同的技术,如TransE和多通道方法,来学习事件图的结构信息并将其嵌入到预测模型中。此外,为了解决事件影响持续时间的挑战,一些研究者将事件分为长期、中期和短期,并使用卷积函数和池化操作来捕捉事件中的集中信息。还有一些方法将事件信息与股票图嵌入相结合,以整合事件信息。这些方法在金融分析中将事件和股票之间的关联性结合起来,有助于更准确地预测股票价格和理解市场基本动态。
5.3 时间序列与外部知识融合
当将时间序列数据和外部知识融合用于股票价格预测时,有两种不同的方法:顺序融合和并行融合。
顺序融合方法可以分为两种方式:
-
先将外部知识融入,然后将历史价格融入:这种方法将历史价格特征作为外部知识融入模型的初始输入。通过利用图表示,融合模型可以考虑图中编码的相关股票特征和结构关系来更新历史价格特征。 -
先将历史价格融入,然后将外部知识融入:这种方法利用外部知识生成更强大的历史指标。通过股票属性优化原始历史价格特征或将相关股票的历史价格特征与目标股票的特征相结合。
并行融合方法也可以分为两种方式:
-
逐时间步融合:在每个时间步骤上将历史价格特征和外部知识特征合并,构建最终预测层的输入。这种方法适用于包含时间戳的外部特征,可以捕捉到可能影响价格行为的额外见解或模式。 -
最后阶段融合:将历史价格特征和外部知识特征一起传递给最终的预测层,不考虑它们的顺序。这种方法简单高效,将两种信息源合并在一起。
六 基于知识增强的股票价格预测数据集
要创建一个通用的股票价格预测数据集并不容易,因为需要整合各种类型的知识。一般来说,研究人员要么自己获取知识,要么使用公开可用的金融知识库。以下是一些常用的金融知识库:
-
FR2KG:这是一个中国的金融知识图谱,包含了金融研究报告的知识和非结构化文本数据。 -
上海科技大学知识图谱:这是一个金融事件知识库,其中包含了金融事件的结构化知识三元组。 -
金融关系抽取数据集:这些数据集提供了实体和它们之间关系的注释,可以用于关系抽取任务。
七 挑战和方向
知识增强型股票价格预测面临着几个未解决的问题和需要发展的方向。首先,知识获取方面需要解决自动化知识选择和多粒度、不规则时间序列中的知识填充的挑战。这需要结合金融专业知识来选择最有用的股票知识子集,并在技术指标的时间点上获取外部知识,但目前的研究需要专业知识或大量的人力。
其次,在知识融合方面,需要综合多模态知识来改进预测能力。通过结合不同类型的外部知识,可以多样化引入外部知识,从而全面分析股票市场。此外,还需要解决在概念漂移情况下的泛化问题,外部知识可以作为股票市场的高级信息,帮助模型适应概念漂移并提高预测准确性。
此外,为了提高模型的可解释性,需要增强知识的股票预测模型。这样投资者可以理解股价预测的基本因素,做出更明智的投资决策。最后,建立开源平台是一个重要的未来发展方向,可以提供公开可用的数据集和代码,以促进模型比较和公平性。
未来发展方向包括自动化知识选择、多模态知识融合、解决概念漂移问题、提高模型可解释性以及建立开源平台来推动知识增强型股票价格预测的研究和应用。
发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/111006
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!