[量化-论文解读]用分层强化学习实现资产选择和交易的联合优化,创造更高超额收益

一 本文简介

Pair Trading(配对交易)是一种最有效的统计套利策略之一,它通过对冲一对选定的资产来寻求中性利润。目前的方法通常将任务分解为两个独立步骤:配对资产选择和交易。然而,这两个密切相关的子任务的解耦可能会阻碍信息传播并导致整体性能受限。在配对选择中,忽略交易表现会导致选择错误的资产对,价格波动不相关,而经过交易训练的策略则可能会在没有其他资产历史信息的情况下过度拟合所选的资产。为了解决这个问题,本文提出了一个自动化配对交易范例,将其作为一个统一任务而非两个独立步骤。我们设计了一个分层强化学习框架,用于联合学习和优化这两个子任务。高级策略将从可选资产的所有可能组合中选择两种资产,然后低级策略将执行一系列交易操作。实验结果表明,与现有的配对选择和交易方法相比,本文的方法在真实世界股票数据上表现出很好的效果。策略在美股S&P 500和中国CSI 300上进行实验分别获得了1.84和1.91的夏普值。

二 背景知识

2.1 配对交易

Pair Trading(配对交易)是一种市场中性的交易策略,通过同时买入和卖出两只高度相关的股票,以从它们的价格差异中获利。这种策略通常用于在相对强度之间寻找差异,即假设两个相关联的股票价格会趋于靠近彼此,如果它们的价格发生偏离,就会做空一个股票并做多另一个股票,并在它们恢复到正常价位时盈利。Pair Trading通常需要使用统计量来确定两只股票之间的相关程度,并且需要密切监控市场并进行快速调整。
过去的方法旨在找到两个资产,在一个形成期内它们的价格历史上存在相互关联,并且它们未来的价差被认为是历史均值回归。在交易之前,通常使用基于历史价格信息的统计或基本相似度测量来执行资产配对选择。距离方法首先被引入,它只使用距离度量,例如欧几里得平方距离(SSD)来模拟两个资产之间的联系。然而,在这些无模型的方法中,理想的资产配对应该是两个历史时间内价格完全相同的资产,这在价格没有波动时没有交易机会。此外,还有选择和交易的方法,通过分层强化学习实现统一的配对交易。直接建立可交易性模型,使用两个资产的价格序列进行线性回归,并期望残差为平稳状态。但未来的资产对价差的均值回归特性可能与其历史上的均值回归强度无关,因此所选的配对资产的交易表现会受到限制。

2.2 使用强化学习的配对交易

使用强化学习的配对交易问题主要围绕在资产配对选择和交易阈值的确定上。传统方法中通常采用基于阈值的规则来生成交易信号,但需要专家知识来确定最优交易阈值。为了解决这个问题,以往的尝试通常集中于通过传统方法选择配对后引入RL方法来开发灵活的交易代理。然而,这些方法仍然采用只考虑交易对历史表现的传统方法进行配对选择,很容易过度拟合到唯一可观察的资产对,并在未来无法预测的市场上表现有限。

2.3 分层强化学习

分层强化学习是一种强化学习框架,旨在解决复杂的任务,其中每个子任务都有其自己的目标和奖励信号。该方法将任务分解成多个子任务,并使用强化学习算法来学习如何执行每个子任务以及何时转换到下一个子任务。这样做的好处是可以大大减小状态空间的规模,从而使得强化学习算法更容易学习任务。
在分层强化学习中,通常有两层:高层策略和低层策略。高层策略负责选择当前应该执行哪个子任务,而低层策略则负责执行具体的子任务。这种分层结构对于解决需要多步骤才能完成的任务非常有用,因为它可以使智能体更加高效地学习并达到更高的总体性能。

三 本文贡献

  1. 本文是第一个将现有的配对资产选择和交易任务结合起来作为新任务引入到配对交易中。为了优化总体交易性能,同时考虑这两个步骤对于配对交易至关重要,而以前这两个步骤在配对资产选择和交易中都被忽视了。
  2. 本文设计了一种全新的端到端分层框架,该框架引入了分层强化学习架构,以联合优化用于配对资产选择的高级策略和用于交易的低级策略。
  3. 在美国和中国股市的实验结果表明,相较于现有的配对资产选择和交易方法,本文的方法具有更高的性能和有效性。

四 本文工作

配对交易通常涉及两个步骤:配对资产选择和交易。在配对选择中,从所有可能的资产组合中选择两种相关资产,以形成交易对。考虑到这些交易对,执行一系列交易行为,以在随后的一段时间内赚取市场中性利润。配对交易的目的是最大化所选资产对的交易利润,这需要选择最佳的交易对,并在交易期间选择正确的交易行为。
与传统方法不同,本文提出了一个共同学习选择和交易配对的统一框架。因此,给定一个具有T个信息周期{0, 1, …, T-1}和T个交易周期{0, 1, …, T-1}的资产集合X={x1, x2, …, xn},每个资产x∈X都与每个时间点的信息周期和交易周期相关联。为了解决这个问题,本文将配对交易过程制定为封装为分层强化学习框架。如图2所示,分层强化学习框架由两个控制器组成:一个高层控制器称为Manager和一个低层控制器称为Worker。Manager需要最大限度地提高外在奖励。Manager将在奖励函数的指导下选择触发的资产对使用Worker进行交易,Worker会获得一个不同于外在奖励的内在奖励。
图片
本文设计了一个高层控制器作为配对交易的Manager。Manager旨在选择两个资产作为一对,并通过配对交易最大化它们的交易表现。预期这对资产组合应在所有可能的资产组合中在随后的交易期间拥有最高的利润。因此,对于管理者来说,外部奖励是所选对组合在交易期间的利润。为了实现所选对组合的最优交易利润,需要考虑一个不同的子任务,即智能体应该在所选对组合上执行一系列的顺序交易决策。由于目标不同于选择,本文使用一个低层控制器作为Worker,采用所选对组合的交易利润作为内在奖励来引导Worker的学习。

下面是算法的伪代码和整体架构图。需要注意的是,参数更新是分内外两层的,内层进行Worker的策略更新,每一轮更新M次,当Worker更新完成后,使用更新后的Worker计算外部奖励用来更新Manager策略。
图片
图片

五 实验分析

数据集选择使用美股S&P 500和中国CSI 300。
图片
图片
图片

六 总结展望

本文提出了一种新的自动配对交易方法,将配对资产选择和交易这两个子任务统一起来。基于此,本文设计了一个分层强化学习框架,由高层策略用于资产选择、低层策略用于交易。高层策略专注于从所有可能的资产组合中选择一对作为选项,以最大化其交易性能,而低层策略则旨在在给定的资产对上实现最优的配对交易。实验结果表明,在配对交易中的两个步骤是密切相关且互补的,本文方法相较于现有的配对选择和交易方法具有显著的改进。

发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/110955
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!

(0)
股市刺客的头像股市刺客
上一篇 7分钟前
下一篇 5分钟前

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注