信息比率3.95的多频率因子挖掘模型

·
论文 | Meta contrastive label correction for financial time series
·
·

原文:神经网络多频率因子挖掘模型[华泰证券]

一 导读

本文探究了如何使用神经网络从股票的原始量价数据中自动提取特征,实现端到端的因子挖掘和因子合成。研究重点在于如何设计网络结构以有效挖掘不同频率的股票量价数据。在本文中,作者首先将神经网络应用于15分钟频率的量价数据,取得了较好的效果。随后,作者将日频数据与15分钟频数据结合起来构建了多频率混合模型,并引入因子增量贡献的思想设计了两阶段增量学习模型。在对比测试中,多频率增量混合模型表现最好,并且构建的各类指数增强策略表现优秀。在2017/1/4~2023/4/28的回测期内,该模型在全A股的样本空间中,周度RankIC均值达到了10.22%,信息比率3.95,分 10 层 TOP 组合年化超额收益率为 36.36%(不计交易成本)。

二 算法介绍

本文引入了因子增量贡献的思想,设计了一个两阶段的增量学习模型。该模型的目的是实现端到端的增量学习,即在已有的日频量价数据基础上,通过引入15分钟频数据,学习分钟频量价数据能够贡献的增量信息,从而提高模型的预测准确性。该模型的第一阶段只使用日频量价数据训练对应的神经网络分支。在第一阶段训练中,模型的损失函数为预测值与标签之间IC的相反数,训练直至模型的loss收敛为止。第二阶段将日频量价数据分支网络结构的参数冻结,只进行前向传播,再引入15分钟频数据,学习预测值与标签之间的残差,即学习分钟频量价数据能够贡献的增量信息。模型的具体细节如下图所示。
图片
总的模型和数据细节:
图片
日频量价数据的模型和数据细节:
图片
15分钟频量价数据的模型和数据细节
图片
模型的训练过程包括两个阶段。下图左侧子图为常规模型训练过程中IC的变化,右侧子图为两阶段训练模型训练过程中IC的变化。可以看出,第一阶段训练在第9个epoch时收敛,随后开始第二阶段训练。第二阶段训练在第40个epoch附近收敛。该模型的增量学习思想和两阶段训练方式能够有效提高模型的预测准确性,从而取得更好的模型效果。
图片

三 模型测试

模型测试部分主要对四个模型进行了单因子测试,包括15分钟频模型、15分钟频注意力模型、多频率混合模型和多频率增量混合模型。测试使用了股票池、回测区间、调仓周期、因子预处理等条件,并采用IC值分析和因子相关性分析等方法进行测试和对比。
在IC值分析中,四个模型都被测试分为10层,并计算每层的平均IC值。在股票池为全A股的情况下,多频率增量混合模型表现最好,其次是多频率混合模型、15分钟频注意力模型和15分钟频模型。在其他股票池的情况下,多频率混合模型表现最好,其次是多频率增量混合模型、15分钟频注意力模型和15分钟频模型。因子相关性分析结果显示,多频率混合模型和多频率增量混合模型的因子相关性较低,表现出较好的多样性和独立性。
图片

图片

四 总结展望

本文工作使用神经网络从股票的原始量价数据中自动提取特征,实现了端到端的因子挖掘和因子合成。本文引入了因子增量贡献的思想,设计了一个两阶段的增量学习模型,能够有效提高模型的预测准确性。未来,可以进一步探索其他混合模型和增量学习模型的设计和应用,并结合其他手段进行综合评估和优化,以提高股票量化交易的效果和收益。

发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/110977
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!

(0)
股市刺客的头像股市刺客
上一篇 1天前
下一篇 1天前

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注