TACR:一种使用Transformer提取历史信息的强化学习股票交易算法[附开源代码]

·
·
·

一.  本文概要

机器学习技术在股票交易和股票价格预测中发挥重要作用,其中一种方法是使用强化学习、LSTM和transformers等技术。现有的强化学习算法在决策时通常不考虑过去的股票数据,为了解决这个问题,提出了一种名为TACR的方法。TACR利用决策transformer模型和评论家网络,能够利用过去的股票数据来预测当前的最佳操作并评估动作的价值。与基线方法相比,TACR的夏普比和收益获得了显著的提高。

二.  本文方法

为了使用强化学习,本文受限构建了一个马尔可夫决策过程(MDP)的状态空间,用于表示股票的相关信息,例如开盘价、收盘价、最高价、最低价以及技术指标等。而动作空间则表示一组满足特定条件的权重分配,用于表示在当前时期中投资于不同股票的比例。任务的目标是通过选择合适的权重分配来最大化收益。
图片
如上图所示,为了实现最大化收益的目标,TACR采用了决策Transformer作为决策者(actor),它通过预测动作并通过评论家网络对动作进行评估来提高性能。决策Transformer的机制是将先前的MDP元素映射到当前的动作。它由隐藏层和多个解码器块组成,其中解码器块使用注意力机制来训练每个MDP元素之间的相关性。与常用的离策略方法不同,TACR选择了离线训练方法来训练模型。离线训练意味着我们通过模仿预先准备的次优动作来训练代理,以期望获得更好的性能并减少学习时间。为了进行离线训练,我们需要创建次优轨迹,即将每个状态对应的次优动作进行配对。我们通过生成具有高动作率的轨迹,根据股票价格的增长率来实现这一点。然而,离线RL算法存在一个问题,即在更新策略时无法与环境进行交互,导致代理无法准确估计未见状态的动作价值。为了解决这个问题,TACR引入了一种正则化方法。该方法通过为模型添加一个行为克隆正则化术语,使得决策Transformer能够更好地模拟数据集中次优轨迹中的动作分布。这个正则化项帮助我们更准确地评估模型的性能。

三.  实验分析

本文实验使用了几个数据集(包括美国、德国和中国的股票指数数据集)来比较TACR模型的性能,这些数据集与其他最先进的方法进行对比。所有数据集都是按天进行的交易,使用投资组合价值和夏普比率作为评估标准。对比的基线方法包括离线RL、离策略RL、在策略RL和经典方法(等权策略)。
图片
结果显示,与各种基线方法相比,TACR模型具有最好的性能。与其他算法相比,TACR模型在夏普比率方面也表现出色,至少高出基线13.1%,最高可达177.7%。此外,当增加过去MDP元素的序列长度时,大多数数据集都显示出良好的结果,这意味着在考虑更长时间的历史信息时,TACR能够更接近最优的投资行为。

发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/111037
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!

(0)
股市刺客的头像股市刺客
上一篇 1天前
下一篇 1天前

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注