探索高频与日度的混频深度学习因子的选股能力

·
·
·

一 高频数据特征和日频量价特征

高频数据特征是通过在较短时间间隔内获取的数据提取的特征,包括价格、成交量、成交笔数、盘口委托、成交分布和交易行为等指标。这些特征揭示了股票在短期内的价格波动、市场活跃度、交易深度和交易者行为等微观结构和交易活动,为交易决策和模型建立提供更准确的数据基础。

日频量价特征是在每个交易日结束时获取的数据特征,包括收盘价、最高价、最低价、成交量、涨跌幅、换手率和市值等指标。这些特征用于分析股票的日内和长期趋势,提供关于股票价格波动、市场活跃度、流动性和市值等方面的信息。

高频特征关注短期市场行为,帮助我们迅速捕捉价格波动和交易活动,对快速交易和短期投资决策很有帮助。而日频特征则提供了更长期的趋势和整体市场表现,有助于制定长期投资策略和管理风险。混合使用这两种特征可以互为补充,弥补它们各自的不足。高频特征可能受到噪声和异常值的影响,而日频特征更稳定可靠,可以验证和确认观察结果,提高数据的可信度。同时,混合使用高频和日频特征可以提供更全面的市场信息,从不同角度理解市场的动态和趋势。综合利用这些特征,我们可以进行更准确、全面的市场分析和交易决策。

二 构建高频与日度的混频模型

2.1 特征构建

本文在构建特征时,使用了日频和高频数据的相关字段,共得到26个日频特征和64个60分钟频特征。这些特征包括了不同时间尺度下的市场数据,以提供全面的市场观察和分析。

  1. 日频量价数据方面,主要包括开盘价、最高价、最低价、收盘价、成交额和成交量等信息。这些特征可以用来刻画股票的日度收益、价格形态、交易活跃度和流动性等方面的情况。
  2. 分钟K线数据方面,除了包括开盘价、最高价、最低价、收盘价、成交额和成交量外,还包括成交笔数。这些特征提供了更详细的市场行情信息,可以用于分析股票的分钟级别的价格变动和交易活动。
  3. 3秒盘口快照数据方面,包括盘口前10档委买/委卖价和前10档委买/委卖量。这些特征反映了股票盘口的委托情况,可以用于观察盘口的变化和交易深度。
  4. 逐笔成交数据方面,包括成交价、成交量、BS标志、买单号和卖单号。这些特征记录了每一笔成交的详细信息,可以用于分析成交价与成交量的关系,以及买卖方的交易行为。

日频量价特征主要关注股票的日度表现,如收益、价格形态、交易活跃度和流动性等。而高频量价特征则更关注股票的日内微观结构,如高频收益、成交分布、量价形态、盘口委托变化、主买/主卖变化、大/中/小单交易行为等。这些特征的组合可以提供全面的市场信息,帮助我们更好地理解和分析市场的动态和趋势。

2.2 模型构建和训练

图片
整体的模型框架如上图所示。由于我们需要将日频和60分钟频两种不同频率的特征序列作为输入,为了简化计算,本文采用了两个独立的GRU(门控循环单元)模块,分别从不同频率的输入特征中提取信息。然后,我们使用MLP(多层感知机)来整合这两个GRU模块的输出结果,并输出最终的模型预测结果。

模型训练:

  1. 准备数据:
    • 验证早停集:选择最近120个交易日的数据作为验证早停集。
    • 训练集:选择1200个交易日的数据作为训练集,与验证早停集不重叠。
  1. 模型迭代:

        从2017年开始,每隔120个交易日进行一次迭代。每次迭代的步骤:

        1. 获取当前迭代周期的输入特征,对于每个股票,获取过去60个交易日的日频量价和60分钟频高频量价序列作为输入特征。
        2. 定义模型结构:创建一个模型,包含独立的GRU模块来提取不同频率的特征信息。使用MLP来整合GRU模块的输出结果。
        3. 训练模型:使用训练集作为输入,将输入特征输入到模型中进行训练。使用均方误差(MSE)作为损失函数。
        4. 设置早停机制:如果连续5个周期的MSE在验证早停集上没有改善,则停止训练。
        5. 重复训练和推理:对于同一组超参数的模型,重复训练5次。
        6. 在推理时,使用这5个模型的平均值作为模型的输出结果。

三 实验分析

3.1 周频选股能力

下面是实验结果,分析这些结果可知

  1. 周均IC和Rank IC:因子在周度选股能力方面表现十分显著,接近甚至超过0.1,并且周度胜率高达85%。
  2. 未来5日因子表现优秀:相对于其他时间周期,未来5日因子的表现更好,但自相关性较低,导致换手率略高。
  3. 混频深度学习因子与其他因子的相关性:混频深度学习因子与反转、换手率和波动率等低频量价因子的相关性较高,绝对值均值在0.2-0.3之间;与风格类因子(市值、估值)、高频量价因子和基本面因子(ROE和SUE)的相关性较低,不超过0.1。
  4. 交易成本对因子多头效应的影响:交易成本对因子多头效应有较为明显的影响,不同标签下的超额收益降至约20%左右。未来5日因子的高换手率使其受到更大的影响,年化超额收益不足20%,甚至在2023年以来仍然为负超额收益。
  5. 因子在不同指数成分股内和市值、成交金额区间的表现:根据不同的划分,因子在中证800与1000外的股票中表现最优,其次是全市场中。在沪深300成分股中的表现相对较差,但IC仍然达到0.071,多头超额收益可达25%。根据市值大小划分,处于中间40%的股票中表现最好,其次是市值最小的30%股票。根据成交金额高低划分,最高的30%股票中因子表现更好,IC超过0.11,多头超额收益超过35%。

图片图片

图片图片

3.2 双周频和月频选股能力

图片
图片双周和月频率下的因子选股能力在持有期延长时显著上升,表现出较高的IC和Rank IC,均超过0.1。然而,作为高频因子,较低的换仓频率导致超额收益大幅下降。在月频换仓下,因子的多头超额收益仅约为15%,相比周度换仓的30%降幅高达50%。因此,相对合理的交易成本下,高频因子更适合在短周期下使用。在不同选股范围内,因子在中证800和中证1000以外或成交金额较大的股票中表现较好。双周和月频率换仓的路径多样,因此不同路径上的超额收益差异较大。

发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/111015
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!

(0)
股市刺客的头像股市刺客
上一篇 22小时前
下一篇 22小时前

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注