一 本文简介
由于市场存量博弈,行业轮动速度加快,行业配置策略经常失效。本文采用强化学习和跨行业神经网络优化行业配置策略,实现了年化收益达到了17.36%,相较于等权基准策略的-6.97%的年化收益,超额收益达到了24.33%, 最大回撤降低到-4.58%,夏普比提高到了2.3 。而且模型选取行业与主观投资逻辑达成一致,能有效识别多个投资机会。
二 背景知识
2.1 行业轮动策略
行业轮动策略(行业配置策略)层出不穷,不同投资者的行业配置策略所使用的方法论各有千秋。然而,这些策略的投资逻辑主要可以归纳为四个维度:动量、估值、景气度和拥挤度。
-
动量策略的核心思想是通过价量特征及技术分析,选择那些表现强势的行业进行配置。这意味着投资者倾向于选择那些在价格上涨和交易量增加的行业。然而,动量策略存在一些风险,比如动量反转可能导致策略失效,以及趋势右侧入场时的滞后性。此外,动量策略也难以及时识别信息面的变动,这是限制其收益上限的主要因素。 -
从估值角度出发,投资者会以行业整体的市盈率或市净率水平为基础,分析宏观经济变化对行业增长的影响,从而预测行业的投资价值。基于行业估值,投资者可以选择那些相对被低估的行业进行配置,以期获得超过市场基准的收益。估值是一些策略如戴维斯双击策略和景气投资策略的基础。 -
中观行业景气度对于大多数周期性行业的投资具有重要意义。行业景气度的构建通常通过分析师的预期数据或中高频的产业数据进行提炼,以盈利预测的形式结合估值指标,应用于行业配置策略。在行业配置选择中,投资者会综合考虑投资胜率和赔率,追求高胜率的配置行业有助于实现短期内相对市场超额收益的概率,而追求高赔率的配置行业则有望在长期为投资者带来绝对收益。高胜率的行业通常具备良好的趋势和较高的景气度,而高赔率的行业往往具有低估值,可能有较高的绝对收益空间。 -
投资者发现,即使两个行业处于相似的景气回升阶段,市场定价变化趋势却可能不同。这引出了行业拥挤度对行业的影响。行业拥挤度的评价指标包括量能指标,衡量各行业成交金额放大的增速,以及价格蕴含的信息与动量接近程度,衡量行业动量的集中程度。此外,资金买入意愿和分析师对行业的关注度及评级情绪也被综合考虑来判断行业拥挤度。投资者通常选择拥挤度较低的行业进行配置,因为行业拥挤度较低意味着行业上涨空间较大。
2.2 强化学习
强化学习是一种机器学习方法,旨在通过与环境的交互学习来做出最优决策。它是建立在智能体(Agent)与环境之间互动的基础上的。在强化学习中,智能体通过观察环境的状态,采取特定的动作,接收环境的反馈(奖励或惩罚),并根据这些反馈调整自己的策略,以获得最大的长期回报。
强化学习的核心思想是通过试错学习。智能体通过不断尝试不同的行动,并根据环境的反馈来判断行动的好坏,从而逐步调整策略以达到最优解决方案。强化学习算法通常使用价值函数或者策略函数来指导决策的过程。价值函数估计每个状态的价值,而策略函数则决定在每个状态下应该采取的动作。
三 本文方法
当前行业配置策略存在以下问题:
-
数据滞后:传统的行业配置策略可能依赖于历史数据,导致对市场变化的反应滞后。 -
因子IC反转:某些因子可能会经历反转现象,即在一段时间内有效,但在另一段时间内失效。 -
模型退化:市场环境的变化可能导致原有的行业配置模型失效,需要不断调整和优化。
使用强化学习进行行业配置策略具有以下优势:
-
适应性和灵活性:强化学习可以根据实时市场环境进行学习和调整,具备更好的适应性和灵活性。 -
非线性关系建模:强化学习可以捕捉到复杂的非线性关系,更准确地描述行业间的相互影响和变化。 -
数据驱动决策:强化学习可以基于大量数据进行决策,减少对主观判断的依赖,并提高决策的客观性。 -
模型优化和迭代:强化学习可以通过不断的迭代和优化,提高行业配置策略的性能和稳定性。 -
考虑长期收益:强化学习可以通过长期的学习和优化,追求长期收益最大化,而不仅仅关注短期的市场波动。
本文采用了时序差分算法(双网络DQN)来优化行业配置模型。该模型作为双网络DQN算法中的Q网络,通过强化学习算法进行参数更新。此外,还使用了基于自注意力机制的跨行业神经网络来学习行业间的联动关系。在行业特征提取和跨行业评估后,根据一定规则选择配置行业的权重生成模块。每个行业经过资产间注意力网络得分后,经过归一化计算(softmax)并排序,得分越高表示策略模型评估该行业未来收益更高。最后,选择得分最高的K个行业构建行业配置组合。
-
状态:各行业指数的在一段时间内的行情数据; -
动作:按照策略所选的行业通过调仓实现等权持有; -
奖励:持仓 T 日后的组合收益。
四 实验结果
实验以申万一级行业指数为标的,通过回测实验分析了行业配置策略的可行性和有效性。作者采用了含时序注意力的LSTM网络作为表征学习模型,将回看窗口调整为20天,并考虑了更多的行业数量。训练数据时间段是2016-01-04 至 2021-05-31,测试数据时间段是2021-06-01 至 2023-05-31。
下面是在策略验证数据上的表现,策略相较于等权基准的-6.97%的年化收益,年化收益达到了17.36%,超额收益达到了24.33%, 最大回撤降低到-4.58%,夏普比提高到了2.3 。
五 总结展望
本文通过实现强化学习框架的行业配置端应用,采用日频价量模型,设计了行业表征模型和跨行业评估网络,通过强化学习框架进行训练和更新,构建了一个提供中高频行业配置观点的策略模型。研究结果表明,策略在2016-2023年每年均能提供正超额收益。收益的提升主要归功于引入行业间注意力网络,而回撤和波动的控制能力则来源于强化学习框架的自适应机制。
发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/111007
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!