TACR:一种使用Transformer提取历史信息的强化学习股票交易算法[附开源代码]

一. 本文概要

机器学习技术在股票交易和股票价格预测中发挥重要作用，其中一种方法是使用强化学习、LSTM和transformers等技术。现有的强化学习算法在决策时通常不考虑过去的股票数据，为了解决这个问题，提出了一种名为TACR的方法。TACR利用决策transformer模型和评论家网络，能够利用过去的股票数据来预测当前的最佳操作并评估动作的价值。与基线方法相比，TACR的夏普比和收益获得了显著的提高。

二. 本文方法

为了使用强化学习，本文受限构建了一个马尔可夫决策过程（MDP）的状态空间，用于表示股票的相关信息，例如开盘价、收盘价、最高价、最低价以及技术指标等。而动作空间则表示一组满足特定条件的权重分配，用于表示在当前时期中投资于不同股票的比例。任务的目标是通过选择合适的权重分配来最大化收益。

如上图所示，为了实现最大化收益的目标，TACR采用了决策Transformer作为决策者（actor），它通过预测动作并通过评论家网络对动作进行评估来提高性能。决策Transformer的机制是将先前的MDP元素映射到当前的动作。它由隐藏层和多个解码器块组成，其中解码器块使用注意力机制来训练每个MDP元素之间的相关性。与常用的离策略方法不同，TACR选择了离线训练方法来训练模型。离线训练意味着我们通过模仿预先准备的次优动作来训练代理，以期望获得更好的性能并减少学习时间。为了进行离线训练，我们需要创建次优轨迹，即将每个状态对应的次优动作进行配对。我们通过生成具有高动作率的轨迹，根据股票价格的增长率来实现这一点。然而，离线RL算法存在一个问题，即在更新策略时无法与环境进行交互，导致代理无法准确估计未见状态的动作价值。为了解决这个问题，TACR引入了一种正则化方法。该方法通过为模型添加一个行为克隆正则化术语，使得决策Transformer能够更好地模拟数据集中次优轨迹中的动作分布。这个正则化项帮助我们更准确地评估模型的性能。

三. 实验分析

本文实验使用了几个数据集（包括美国、德国和中国的股票指数数据集）来比较TACR模型的性能，这些数据集与其他最先进的方法进行对比。所有数据集都是按天进行的交易，使用投资组合价值和夏普比率作为评估标准。对比的基线方法包括离线RL、离策略RL、在策略RL和经典方法（等权策略）。

结果显示，与各种基线方法相比，TACR模型具有最好的性能。与其他算法相比，TACR模型在夏普比率方面也表现出色，至少高出基线13.1%，最高可达177.7%。此外，当增加过去MDP元素的序列长度时，大多数数据集都显示出良好的结果,这意味着在考虑更长时间的历史信息时，TACR能够更接近最优的投资行为。