通过扩散模型增强股票因子,实现27.8%的年化收益提升

·
·
·

一 本文概要

股票预测对于有效的资产管理和投资策略至关重要,它的目标是通过分析相关的历史因素来预测未来的股票行为,如回报率或价格。股票预测任务中的数据稀缺性主要表现在两个方面:信噪比(SNR)低和数据同质性高。低信噪比意味着股票因素与回报率之间的相关性弱,这通常归因于随机性和非平稳的投机行为。数据同质性则表明同一行业部门内的股票表现出类似的行为,导致具有独特信息特征的股票可用性降低。这些数据稀缺性问题可能导致模型过拟合,学习到错误的相关性,最终影响预测性能。
图片
为了克服数据稀缺性问题,本文提出了一种新颖的方法,利用人工智能生成的样本(AIGS)增强训练过程。研究者们引入了扩散模型(Diffusion Model)来生成具有Transformer架构的股票因素(DiffsFormer)。DiffsFormer最初在大规模源域上进行训练,结合条件引导以捕获全局联合分布。当面对特定的下游任务时,使用DiffsFormer通过编辑现有样本来增强训练过程,从而控制生成数据与目标领域的偏差程度。通过在CSI300和CSI800数据集上进行实验,使用八种常用的机器学习模型,DiffsFormer实现了年化收益率比分别提高了7.2%和27.8%。

二. 背景知识

2.1 股票预测

股票预测是一个利用历史时间序列数据来预测未来股票价格的领域。传统的时间序列模型,如长短期记忆网络(LSTM)、门控循环单元(GRU)和双向长短期记忆网络(BiLSTM),因其在序列预测方面的能力而在股票市场分析中得到广泛应用。这些模型能够学习股票价格随时间变化的模式,并预测未来的市场趋势。随着机器学习技术的发展,研究者们还开发了特定于金融场景的模型,例如引入额外输入门来提取因素间的正负相关性,以及能够同时预测股票开盘、最低和最高价格的模型。此外,卷积神经网络(CNN)和图神经网络(GNN)也被用于捕捉影响股票波动的关键特征,并处理非欧几里得结构化数据。

2.2 时间序列扩散模型

扩散模型(DMs)是一类基于深度学习的生成模型,它们通过逐步引入噪声并随后去除噪声来生成数据样本,从而能够生成符合观测数据分布的样本。这种方法在生成图像、文本和音频等多个领域的应用中展现出了卓越的性能。在时间序列分析中,扩散模型能够处理多变量时间序列(MVTS)数据,通过构建前向和反向过程来编码历史信息,并进行概率预测。例如,TimeGrad模型通过结合去噪扩散概率模型(DDPM)和递归神经网络(RNN)来处理时间序列数据。此外,还有模型通过使用随机微分方程(SDEs)来构建连续的扩散过程,并探讨了将RNN扩展到其他架构结构的潜力。这些模型在处理具有空间和时间相互作用的时空图(STG)数据时,通过整合图卷积层和传统UNet架构,进一步扩展了扩散模型的应用范围。

2.3 去噪扩散概率模型

去噪扩散概率模型(Denoising Diffusion Probabilistic Models,简称DDPM)是一种生成模型,它通过模拟数据生成的逆过程来生成新的数据样本。这个过程可以通俗地理解为“添乱再整理”的游戏。

想象一下,你有一张干净的照片(数据),然后你开始随机地在照片上添加一些墨迹(噪声),这个过程就像是在数据上添乱,使得原始的照片(数据)逐渐变得无法辨认,最终变成了一张满是墨迹的纸(纯噪声)。这个过程被称为“扩散过程”,它逐步地、系统地向数据中引入随机性。接下来,去噪扩散概率模型要做的,就是逆转这个过程。它尝试从这张满是墨迹的纸中恢复出原始的照片。这个过程被称为“去噪过程”,模型需要一步步地猜测并移除那些墨迹,直到最终恢复出原始干净的照片。在这个过程中,模型需要学习如何识别和预测噪声,以及如何恢复数据的原始特征。

在数学上,这个过程涉及到概率论和统计学。扩散过程构建了一个由噪声变量组成的马尔可夫链,而去噪过程则是通过另一个马尔可夫链来估计并重构原始数据。通过训练,模型学习到如何从噪声数据中恢复出有用的信息。DDPM在图像、音频、文本等多种类型的数据生成中都有应用,它的强大之处在于能够生成高质量且符合数据原始分布的样本,这使得它在数据增强、样本生成等领域非常有用。在股票预测的场景中,DDPM可以帮助生成更多样化的股票因子样本,从而增强模型的训练效果,提高预测的准确性。

三 本文方法

图片
本文提出的方法,DiffsFormer,是一种基于扩散模型(Diffusion Model)和Transformer架构的新型股票因子增强框架。DiffsFormer的设计着眼于解决股票预测中的两个主要挑战:数据稀缺性和数据同质性。以下是DiffsFormer方法的详细介绍:

1. 扩散过程(Diffusion Process)
扩散过程是DiffsFormer中的第一步,它通过逐步引入噪声到股票因子中,直到达到一个纯噪声状态。这个过程形成了一个马尔可夫链,其中每一步都依赖于前一步并逐渐增加噪声。

在股票预测中,输入数据由最近几天的股票因子组成,每个股票被视为从原始分布中采样的数据点,然后通过添加随机噪声来进行转换。

2. 去噪过程(Denoising Process)
去噪过程的目标是逆转扩散过程中的转换,通过预测噪声来恢复原始数据。这个过程同样通过一个马尔可夫链实现,其中每一步都试图去除前一步中的噪声。DiffsFormer利用神经网络参数化去噪分布,从而估计每一步中的噪声并进行调整。

3. 编辑步骤(Editing Step)
图片
编辑步骤是DiffsFormer的一个关键创新点。它涉及在目标领域中对现有样本进行编辑,而不是从头开始生成新的样本。这样做可以保留原始数据的某些特征,同时引入新的信息来增强数据的多样性。编辑步骤通过在较小的步骤数内进行数据的噪声化和随后的去噪来实现,这有助于控制生成数据与目标领域的偏差程度。

4. 条件扩散增强(Conditional Diffusion Augmentation)

与传统的生成任务不同,股票预测需要清晰的监督信号来训练回归模型。DiffsFormer通过条件引导来控制数据合成过程,包括使用标签和行业信息作为条件输入。

为了适应生成任务到回归任务的转变,DiffsFormer采用了基于标签的引导和无预测器的引导方法,以增强生成因子与标签之间的关系。

5. 转移学习(Transfer Learning)

DiffsFormer利用转移学习来提炼新知识和信息。在训练过程中,模型首先在大型源域上进行训练,然后在推理过程中,从目标领域中的数据点开始,通过噪声化和去噪过程来生成新的数据点。

6. 时间效率改进(Time Efficiency Improvements)

为了提高训练效率,DiffsFormer在训练时采用一种技巧,即初始化时考虑总的扩散步骤,但在实际训练中只采样到较小的编辑步骤,从而加快收敛速度。

7. 损失引导的噪声添加(Loss-guided Noise Addition)

为了减轻过拟合问题,DiffsFormer引入了一种基于训练损失的噪声添加机制。这种方法通过在训练损失较低的数据点上添加更强的噪声,来帮助减少模型的波动性。

8. 模型架构改进(Architecture Improvement)

DiffsFormer对Transformer结构进行了调整,以适应无预测器引导,并包含了自适应层归一化(ALN)和零初始化标量模块,以提高模型性能。

通过这些方法,DiffsFormer能够有效地增强股票预测模型的训练过程,提高其对数据稀缺性和同质性的抵抗力,从而提高预测的准确性和可靠性。

五 实验分析

5.1 实验设置

数据集:CSI 300和CSI 800:这两个数据集包含了中国A股市场上最大的300和800只股票,分别代表了整个市场的表现。

基线模型:使用了八种常用的机器学习模型作为预测的基线。

评估指标:主要使用年化回报率(Annualized Return Ratio, RR)作为评估指标,同时也使用了信息系数(Information Coefficient, IC)和排名信息系数(Ranked Information Coefficient, Rank IC)。

5.2 实验结果

图片
DiffsFormer在两个数据集CSI300和CSI800上对多种机器学习模型进行了增强,结果显示在年化回报率(RR)上取得了显著提升。相对于基线模型,DiffsFormer增强后的模型在CSI300上的平均性能提升在0.50%到13.19%之间,在CSI800上的平均性能提升在4.01%到70.84%之间。

六 总结展望

本文提出了DiffsForme框架,旨在通过标签和行业信息增强时间序列股票数据,以解决股票预测任务中的数据稀缺问题。通过在大规模源域上训练,DiffsFormer能够捕捉全局联合分布,并在特定下游任务中通过编辑现有样本来增强训练过程。实验结果表明,DiffsFormer在股票预测任务中通过数据增强显著提高了模型的年化回报率,证明了其在缓解数据稀缺性、增强模型泛化能力方面的巨大潜力。我们认为DiffsFormer的提出只是解决股票预测中数据稀缺问题的第一步。我们发现,诸如行业部门等条件可以显著提升模型性能,这表明通过将因子编辑到特定行业或生成具有特定市值的股票,可以进一步提升目标股票的性能。此外,本工作还突显了股票预测中数据碰撞和同质性的问题,未来的研究可以进一步开发技术来识别和处理数据碰撞,以及明确引入训练数据的多样性和异质性的策略。

发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/111067
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!

(0)
股市刺客的头像股市刺客
上一篇 6小时前
下一篇 6小时前

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注