一 本文概要
因子模型是量化投资中一种重要的工具,可以通过深度学习技术的应用变得更加灵活和高效,特别适用于复杂的投资情境。然而,在在线和自适应的环境下,构建一个能够预测股票表现的因子模型仍然是一个待解决的问题。这种模型需要能够根据当前的市场情况进行适应,并且仅基于当前的市场信息来做出预测。为了解决这个问题,本文提出了一种名为HireVAE的基于深度学习的在线自适应因子模型。HireVAE的核心是一个分层的潜在空间,它包含了市场情况和股票的潜在因子之间的关系。通过分析这些潜在因子,HireVAE可以有效地估计出有用的因子,并且用它们来预测股票的回报。与以往的方法相比,在四个常用的真实股票市场基准下,HireVAE展现出了更好的表现,特别是在主动收益方面。
二 背景知识
2.1 因子模型
因子模型是用于股票定价和捕捉超额收益的模型。学术界通常将其视为定价模型,而从业者则将其用于发现股票定价错误的因子,以获取超额收益。近年来,基于机器学习的股票预测方法逐渐兴起,与因子模型密切相关。这些方法可以分为因子挖掘和因子组合两类。因子挖掘是从新的数据源或不同的角度学习新的逻辑因子,例如股票交易模式、投资回顾、隔夜模式和股票之间的时间关系。而因子组合则是寻找更好的组合现有因子的方式,以构建基于机器学习的因子模型。这些方法可以通过变分自动编码器、深度多因子模型和深度风险因子模型等来学习最优的潜在因子
2.2 市场状态切换
市场状态切换是指在不同情况下市场或资产的运行模式发生变化。在金融领域,市场状态模型被用于解决利率、资产配置和金融市场等领域的问题。在加密货币市场中,市场状态切换方法表现比没有市场状态切换的方法更好。机器学习方法也被应用于模拟市场状态切换,例如使用隐马尔可夫模型和高斯混合模型来识别市场状态。与现有方法不同的是,在投资实践中,我们不仅需要使用在线学习算法来识别市场状态,还需要根据市场状态确定性学习自适应的因子模型。下图是一个示例,可以通过波动性识别市场状态。
2.3 变分自动编码器
变分自动编码器是一种深度生成模型,它将观测数据编码为潜在空间中的先验知识,并通过学习后验分布来实现数据重建和生成。在金融领域,变分自动编码器被应用于建模随机波动、因子挖掘和因子组合等任务。例如,利用社交媒体数据进行股票因子挖掘,或者学习代表性的潜在因子来构建因子模型。
三 本文贡献
因子模型是一种基于因子的投资方法,起源于资产定价理论。它通过简化量化投资中的高维特征,建立了因子对收益和风险的影响模型。这种方法可以帮助机构投资者构建多样化和定制化的投资组合。然而,随着资本市场的发展,传统的因子模型在实现超额收益方面面临更多挑战。因为投资行为趋于相似,交易头寸也存在重叠。虽然最近的非线性数据驱动方法丰富了传统工具库,但在处理大规模、突发和持续的市场变化,以及在新环境中有效使用先前表现良好的因子等问题上仍面临挑战。因此,建模当前市场环境并开发自适应的因子模型具有重要意义。为了解决这些问题,业界和学术界尝试使用统计学习、机器学习或混合方法建立市场中的状态性变化模型。现有的数据驱动方法将状态切换看作聚类问题,将市场状态细分为不同的聚类。然而,这种方法不适合用于实际投资实践,因为它需要在线学习环境,并且不能使用未来信息进行训练。
对此,本文提出了一种新颖的端到端神经因子模型,名为HireVAE。它具有在线和自适应的状态切换能力,并解决了两个关键问题。第一个问题是如何在训练过程中保持制度聚类标签的一致变化和聚类中心的平滑转移。为了解决这个问题,我们设计了一个稳定的聚类模块,通过学习与不同制度聚类相关联的动态分布来识别市场状态。我们还开发了一个线性稳定算法,确保聚类的一致性和平滑转移。第二个问题是如何在不同制度下自适应地学习因子模型。为了解决这个问题,HireVAE设计了一个先验-后验学习框架,其中包含一个市场编码器,将市场信息编码成市场的潜在变量。这个潜在变量用于估计不同状态的特征,并预测最适合的状态。HireVAE在训练过程中只使用点时数据,没有未来信息泄漏。HireVAE是一种在线自适应的因子模型,通过识别制度、学习市场潜在变量和预测制度指示器,实现了在线学习和自适应的制度切换能力。它解决了在投资实践中建模当前市场状态和开发自适应因子模型的重要问题。
四 本文方法
股票预测问题是指通过学习过去的股票市场数据,来预测未来股票的收益情况。这个问题可以用一个数据驱动的方法来解决。在这个问题中,我们有一组按时间顺序排列的数据样本,包括股票和市场的相关特征。每个样本包括历史时间段的股票数据和市场数据。我们的目标是学习一个模型,通过这些历史数据来预测未来股票的收益。为了解决这个问题,我们可以使用HireVAE这个模型。HireVAE结合了在线学习和线性稳定聚类算法,用来提取市场和股票在不同市场情况下的潜在逻辑。
HireVAE的模型框架基于VAE(变分自编码器)的结构。它包括一个分层编码器和一组市场状态特定的解码器。分层编码器可以提取市场潜在因子和股票潜在因子,以帮助更好地理解市场情况。市场状态转换模块将适当的解码器与潜在市场情况匹配,用于重构或预测股票收益。具体来说,HireVAE包括从序列数据中提取特征的过程,分层编码器-解码器结构,市场状态转换学习算法以及先验-后验学习中的学习目标。
-
特征提取器用于从历史股票数据和市场数据中提取特征。对于股票数据,我们使用股票特定的特征提取器,提取出股票的隐藏特征。对于市场数据,我们使用一组市场特定的特征提取器,通过学习不同模态之间的特征关系来提取市场的特征。 -
分层编码器-解码器结构是一种设计,旨在帮助模型更好地理解市场情况并解释未来股票收益。它使用了一个分层结构的潜在空间,用于表示市场和股票的潜在因素。为了实现这个结构,我们设计了一对编码器,分别从市场和股票的特征中学习潜在变量。在训练阶段,市场编码器根据市场信息和未来股票收益生成市场的潜在变量。然后,通过市场的潜在变量、股票特征和未来股票收益,市场感知的股票编码器学习股票的潜在特征。通过采用市场状态算法来确定当前市场制度,我们可以使用制度特定的解码器来重构未来的股票收益。市场编码器通过提取市场信息来生成市场的后验潜在因子。股票编码器则根据市场潜在因子、股票特征和未来股票收益提取股票的后验潜在因子。这些潜在因子都遵循高斯分布,并通过均值和标准差来参数化。为了在不同的市场情况下学习自适应模型,我们设计了一个制度切换因子解码器。它由多个子解码器组成,可以根据股票的潜在因子和市场的潜在因子来重构未来的股票收益。通过一个切换函数(算法),我们可以识别当前的市场状态。在预测阶段,市场先验生成市场的潜在因子,股票先验根据市场的潜在因子和股票特征生成股票的潜在因子。解码器根据市场-股票先验和切换函数确定市场状态来预测未来的收益。 -
为了学习一个能够适应不同市场状态的自适应因子模型,首先需要根据市场信息来确定这些制度。我们使用一种在线学习聚类算法来实现一致且平滑的市场聚类,并对其进行了线性稳定化处理。首先,我们将市场信息转化为一个一维的测量空间,将其作为当前市场状态的”得分”,用来衡量整体市场的状态。这个得分被视为来自不同市场状态的随机变量。然后,我们计算该得分在不同市场制度下的对数似然,并选择具有最大对数似然的制度作为预测的市场状态。为了确定每个市场状态的中心,我们使用高斯分布来表示不同制度。我们使用库尔贝克-莱布勒散度(KL散度)来衡量两个分布之间的差异,并定义了一个损失函数来度量不同制度之间的差异程度。市场状态学习器通过预测市场状态分布的参数来确定每个制度的中心和偏差。通过对市场状态中心进行排序,并相应地重新排序偏差项,我们可以在一维测量空间中保持制度的一致性和平滑性。在每个批次中,我们使用加权移动平均法来逐渐更新每个市场状态的中心。在预测市场状态时,我们假设市场得分符合高斯分布。对于每个制度,我们可以计算当前市场得分的对数似然,并选择具有最大对数似然的制度作为预测的市场状态。通过这种方式,我们可以根据市场信息自适应地学习和预测不同制度下的市场行为。 -
学习目标包括三个部分,第一部分是学习更好的未来股票回报重构方法,第二部分是在一个层次结构中学习潜在市场特征和潜在股票特征,第三部分是学习更具差异化的制度聚类。因此HireVAE的整体损失函数如下所示:
算法框架的伪代码如下:
五 实验分析
5.1 实验设置
在这个实验设置中,我们使用中国股票市场的价格-成交量和基本面数据,构建了一个股票池,并排除了特殊处理(ST)的股票和上市不满三个月的股票。我们选择了58个特征来表示股票,并按照时间点对数据进行处理。股票回报是基于成交量加权平均价格计算的。为了避免信息泄露,我们将数据集划分为14组,用于训练、验证和测试。在验证数据集中,删除了未来股票回报在测试数据集时间范围内的数据项,以确保模型在验证阶段不会访问到测试阶段的未来信息。
我们的HiReVAE模型与其他基准模型进行比较,包括线性模型、GRU模型、Trans模型、MLP模型、GAT模型、IGAT模型、DMFM模型、VAE模型和CVAE模型。这些模型代表了不同的因子模型和预测方法。通过与这些基准模型的比较,我们可以评估HiReVAE模型的性能。
5.2 实验结果
下面是实验的详细结果。HireVAE在股票预测方面表现优于其他比较方法,具有更好的解释股票回报能力和股票选择能力;相比其他方法,具有更高的年化主动回报和信息比率,在不同市场层次上能够实现更好的长期主动回报。
六 总结展望
本文介绍了HiReVAE,一种创新的端到端神经因子模型,具有识别当前市场状态并自适应提高预测能力的能力。HiReVAE通过分层编码器对全局市场情况和个股潜在因子进行处理,成为第一个在线和自适应的市场状态转换因子模型。在真实的股票市场数据上,HiReVAE表现出优越的性能,明显优于传统线性方法和最近的非线性数据驱动方法。
未来的研究可以进一步探索HiReVAE的潜力和应用。可以考虑扩展模型,包括更多的市场因素和股票特征,以增强对市场状态的理解和预测能力。此外,可以进一步优化模型的结构和参数设置,以提高预测准确性和鲁棒性。还可以将HiReVAE应用于其他金融领域,如期货市场、外汇市场等,以验证其在不同市场环境下的适用性。
发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/111017
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!