一 本文简介
现有的使用强化学习进行股票交易通常直接根据市场数据(如股票价格和交易量)优化交易策略,但是这种方法没有考虑到不同投资资产之间的未来趋势和相关性,这与投资专家的决策方式有所不同, 因此可能不能获得最大收益。
为了解决这个问题,本文提出了一种名为StockFormer的框架。StockFormer将预测编码的前向建模能力与强化学习代理的策略灵活性相结合,以提高交易的效果。StockFormer的预测编码部分由三个修改过结构的Transformer分支组成。这些分支分别提取长期未来动态、短期未来动态和资产关系的有效潜在状态。通过使用这些潜在状态,StockFormer可以更好地预测未来市场的走势和不同投资资产之间的相关性。在策略优化方面,StockFormer采用了actor-critic逐步地将三种潜在状态通过一系列多头注意力结构自适应地组合起来,以生成最优的交易策略。整个模型通过将actor网络的梯度反向传播到预测编码模块进行联合训练。实验结构显示StockFormer在CSI-300股票、纳斯达克-100和加密货币三个公开的金融数据集上都显著优于已有的强化学习方法。
二 背景知识
2.1 常见模型架构
在股票预测中,有几种主流的模型架构被广泛使用,包括基于卷积神经网络(CNN)的模型、基于循环神经网络(RNN)的模型以及使用注意机制、膨胀卷积或图神经网络等其他网络架构。下面将对它们进行详细介绍:
-
基于卷积神经网络(CNN)的模型:这种模型将股票的历史数据视为一组输入特征图,然后通过卷积层、池化层和全连接层等结构来提取特征和进行预测。CNN模型适用于处理图像数据,可以捕捉到不同时间步之间的局部模式和趋势。通过卷积操作,CNN可以自动学习到一些常见的技术分析形态,如头肩顶、双底等。 -
基于循环神经网络(RNN)的模型:RNN模型在股票预测中较为常见,因为它能够处理序列数据并捕捉到时间上的依赖关系。RNN模型通过循环连接在不同时间步之间传递信息,从而能够利用历史数据进行预测。在股票预测中,输入序列可以是股票的历史价格或其他相关指标。RNN模型具有记忆能力,可以捕捉到长期的趋势和周期性。 -
注意机制(Attention Mechanism):注意机制是一种用于处理序列数据的机制,可以在模型中动态地分配不同时间步的权重。在股票预测中,注意机制可以用来自适应地关注不同时间步的重要特征。通过对历史数据中不同时间步的注意力权重进行学习,注意机制模型能够更有效地捕捉到重要的市场变化和趋势。 -
膨胀卷积(Dilated Convolution):膨胀卷积是一种卷积神经网络中的一种变体,通过在卷积核中引入空洞(dilation)来扩大感受野。在股票预测中,膨胀卷积可以帮助模型更好地理解远距离的依赖关系,例如较长时间间隔内的趋势和周期性。 -
图神经网络(Graph Neural Network):图神经网络是一种专门用于处理图结构数据的神经网络。在股票预测中,可以将股票及其之间的关联关系构建成一个图,然后使用图神经网络来学习图中节点的表示和节点之间的关系。通过图神经网络,模型可以利用股票之间的关联信息来提高预测性能。、
2.2 使用强化学习进行投资组合优化
在金融领域中,使用强化学习进行投资组合优化面临一个重要挑战:从嘈杂、高维的原始交易记录中提取出反映市场基本动态的有用状态。为了应对这个挑战,研究者们将投资组合优化视为部分可观察的马尔可夫决策过程(POMDP),而不是传统的马尔可夫决策过程(MDP)。
在POMDP中,投资组合优化的问题被描述为一个包含7个要素的元组(O, S, A, T, Z, R, γ),其中:
-
O是观察空间,表示嘈杂市场数据。例如,可以包括股票的历史交易记录、技术指标和协方差矩阵等。 -
S是状态空间,表示投资组合优化中的潜在状态。它可以由三种类型的潜在状态和账户状态(包括总账户余额和每个交易资产的持有量)组成。 -
A是动作空间,表示可以在每个交易资产上买入、持有或卖出的数量。为了模拟真实的交易情景,动作空间通常是连续的,但在与环境交互时会被离散化为多个每日交易信号的区间。 -
T(st+1|st, at)表示状态转移概率,即给定当前状态和动作,下一个状态的条件概率。 -
Z(Ot|st)是观察数据的先验分布,表示给定潜在状态下观察数据的分布。 -
R是奖励函数,用来评估每日投资组合的回报率。奖励函数通常由投资组合的收益率来定义。 -
γ是未来回报的折现因子,用于平衡当前和未来回报的重要性。
通过使用POMDP框架,研究者们可以更好地处理金融领域中的投资组合优化问题,并通过强化学习算法来学习最优策略,以最大化投资组合的总回报。在具体实现中,将市场数据作为观察数据,将潜在状态和账户状态组合作为状态,使用连续动作空间来指示交易行为,并通过奖励函数来评估投资组合的每日回报率。通过这种方式,模型能够更好地理解市场的动态特征,并根据观察数据和当前状态做出相应的投资决策,从而提高投资组合的性能。
三 本文工作
StockFormer是一种用于优化交易决策的强化学习方法, 它通过预测编码和策略学习两个训练阶段来实现。
4.1 预测编码
预测编码的关键思想是提取对预测未来、缺失或上下文信息最有益的表示信息。这些表示信息有助于我们理解金融市场中交易目标之间的动态关系以及每个目标的未来趋势。
为了处理金融市场中多个交易资产(如数百只股票)并发序列之间的时间模式多样性,我们对原始Transformer中的多头注意力块进行了改进。如图1(左)所示,StockFormer使用一组前馈网络(FFN)替代了单个前馈网络,其中每个FFN对应多头注意力层的一个头部。通过这种方式,多样化的多头注意力(DMH-Attn)增强了多头注意力的特征解耦能力,有助于对不同子空间中的多样化时间模式进行建模。通过在不增加总参数数量的情况下引入这个机制,StockFormer能够更有效地从原始数据中学习表示。
关系表示是指学习交易资产之间的相关性。StockFormer使用了一种叫做DMH-Attn(多头注意力)的方法来进行关系表示的预测编码。
预测编码的过程可以表示为以下几个步骤:
-
首先,我们将查询(Q)、键(K)和值(V)输入到多头注意力(DMH-Attn)中,得到一个中间表示Z。同时,为了保留一些原始的查询信息,我们将Z与Q相加。 -
接下来,我们将Z分割成h个部分,表示为xi,其中i表示第i个部分。 -
对于每个部分xi,我们通过两个线性变换和ReLU激活函数得到输出特征fi。这个过程可以表示为fi = max(0, xiW1,i + b1,i)W2,i + b2,i,其中W1和W2是权重矩阵,b1和b2是偏置向量。 -
最后,我们将所有的输出特征fi拼接起来,得到最终的关系表示DMH-Attn(Q, K, V)。这个表示包含了学习到的交易资产之间的相关性。
通过这个预测编码方法,StockFormer能够学习到有效的关系表示,用于理解交易资产之间的相关性。
预测表示是指学习未来时刻的隐藏表示,以便进行未来价格的预测。为了实现这个目标,我们使用了与关系表示相同的方法,即DMH-Attn(多头注意力)。我们使用前一时刻的隐藏表示作为键和值,当前时刻的隐藏表示作为查询。这样,我们可以通过DMH-Attn块来计算预测表示,通过这个预测编码方法,StockFormer能够学习到未来时刻的隐藏表示。这些隐藏表示包含了有关未来价格的信息,可以为StockFormer进行未来价格的预测提供有用的线索和指导。预测表示的学习使得我们能够更好地理解未来市场的走势和趋势,从而为投资决策提供更准确的信息。
4.2 策略学习
在策略学习阶段中,StockFormer通过使用多头注意力层将三种类型的潜在表示整合成一个统一的状态空间。这种整合是为了学习交易策略。StockFormer利用长期和短期时间范围内每个时间序列的未来趋势以及不同交易资产之间的动态关系,来学习灵活的交易策略。
首先,通过预测编码,我们从三个Transformer分支中得到了有用的表示信息。这些表示包括s_relat_t、s_long_t和s_short_t。然后,我们需要将这些不同类型的潜在表示整合到一个统一的状态空间中。为了实现这一点,StockFormer使用了级联的多头注意力机制。这样可以确保决策模块在金融市场中具有预测的未来信息,并能考虑不同交易目标之间的动态关系。在策略优化方面,StockFormer使用SAC算法在统一的状态空间中学习交易策略。
通过混合训练预测编码和策略学习的两个阶段,StockFormer可以将预测编码的前向建模能力与强化学习方法的灵活性相结合,以达到更好的交易策略学习效果。
五 实验分析
实验部分使用了三个不同的数据集,分别是CSI-300股票数据集、纳斯达克-100股票数据集和加密货币数据集。表1的实验结果结果显示,与其他股票预测模型和RL策略相比StockFormer在投资组合回报率、年回报率、夏普比率和最大提款率等评估指标上表现出色。在CSI-300和纳斯达克-100数据集上,StockFormer的投资组合回报率比基准模型提高了40.3%和23.9%,而夏普比率分别提高了22.7%和12.1%。在加密货币数据集上,大多数股票预测模型表现一般,而StockFormer可以获得不错的投资表现。下图3展示了不同方法的回测表现。
六 总结展望
本文提出了一种用于金融市场决策的强化学习方法StockFormer。StockFormer使用了一种叫做Transformer的神经网络结构,可以学习长期和短期的市场趋势,以及不同股票之间的关系。通过这种方式,StockFormer可以将这些不同的信息融合到一个统一的决策空间中做出更好的交易决策。未来,我们可以进一步改进和优化StockFormer。我们可以尝试不同的预测方法和神经网络结构,以提高模型的性能和适应性。
发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/111054
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!