[ML]ESCP:让策略快速感知并适应环境变化

一 本文简介

现实世界的任务环境可能会发生突然的变化,通常我们期望可以存在一种方法能够快速的适应环境变化。本文提出了一种环境敏感的上下文策略学习方法(ESCP)方法来对环境编码,通过检测环境编码的变化实现对环境变化的快速辨识,根据所识别到的环境变化及时调整控制策略,让强化学习策略可以做到感知环境变化并进行自适应的控制调整。

本文虽然只展示了ECSP在强化学习领域的应用,但是其算法思想也可以用在时序预测的任务上,如金融市场可能会受到政治、经济、国际事件或其他一些外部因素的影响。这些变化可能会引起市场投资者的情绪变化,影响价格和供求,从而导致原有的投资策略失效。通过引入ESCP的思想可以为策略加入市场环境变化感知模块,让交易策略可以对市场环境做到快速的自适应调整。

二 背景介绍

强化学习在很多任务中已经达到并超越了人类专家。但是这些任务通常都是稳态的,即环境不会存在大的改变,例如下围棋的规则是不变的,游戏场景的任务规则也一般是不变的。当环境发生变化之后,通常也需要对策略进行再训练已适应变化后的环境。但是现实世界的任务环境往往是变化的,如变幻莫测的天气,复杂多变的股市。
图片
上图现实了一个汽车驾驶环境中的变化。当汽车驶过水坑时,水会减少了路面的摩擦力导致车辆打滑,环境的动态特性突然发生了变化。如果驾驶员没有快速适应新环境的能力,车辆将会失控发生事故。而经验丰富的驾驶员,在经过水洼时,通过对当前速度、行驶方向和油门、方向盘的控制状况,能够意识到当前正在经过一段不同路面,从而迅速调整驾驶策略,最大限度地规避风险,最终安全地通过这片区域。

因此一个好的策略应该也是可以根据对环境的观察,快速的进行策略的调整,做到环境的自适应。

三 本文贡献

本文提出了环境敏感上下文策略学习(Environment-SensitiveContextualPolicyLearning,ESCP)算法,使智能体策略能够快速识别和适应环境的突发变化。ESCP遵循基于上下文的元RL的范例,由三个关键模块组成:

  1. 方差最小化损失:让环境上下文编码器对环境进行快速且鲁棒的特征提取,完成环境编码;
  2. 相关矩阵行列式最大化损失:防止编码器生成无意义的编码,并使的不同环境的编码特征具有较强的可区分性;
  3. 历史截断的循环神经网络:促使上下文编码器关注与环境变化密切相关的数据(也就是最近的数据)。

通过以上模块,ESCP能够根据和环境的交互数据快速提取到环境编码,基于环境编码的变化快速识别环境的变化,并根据变化对策略输出进行自适应的调整。

四 本文算法

图片
上下文编码器(CE)将历史交互编码为潜在上下文,上下文策略(CP)基于所学习的潜在上下文做出决策。在CE模块生成与环境相关的编码之后,CP模块可以相应地在环境中做出最佳决策。因此,如果CE能够快速识别和跟踪环境的突然变化,那么CP模块的决策也能够快速适应环境。我们希望CE能够尽快识别环境,以便识别时间的突然变化。

CE模块的输入是历史的交互序列(S_t-H,a_t-H,….,S_t-1,a_t-1)和当前的环境状S_t。通过下述公式6计算CE模块的优化目标进行更新。CE优化目标可分为两部分:前一部分是方差目标,将z_ti的期望视为第i个环境的环境编码,迫使z_ti快速稳定地收敛,后一部分则是希望能够通过环境编码区分不同的环境。

CP模块的输入包括当前的环境状态S_t,CE模块识别的环境编码,使用SAC算法进行更新,由于观测中包含了对识别的环境编码,所以策略是可以根据不同的环境编码进行自适应的调整。

Q模块是进行Q值估计的,输入包括S_t,a_t,Z, 为了使得学习过程更稳定,Z并没有和CP模块一样使用CE模块识别出的环境编码,而是通过公式5得出了移动平均的Z输入。

整个算法的伪代码如下:
图片
图片
图片
图片

五 实验分析

本文实验部分使用一个网格世界任务和5个参数变化的运动控制任务来经验性地评估ESCP算法的性能。实验结果表明,在分布内外参数同时变化的环境中,ESCP不仅能更好地恢复环境编码,而且能更快地适应变化后的环境(在网格世界中可以快10倍),且控制的性能更好。
图片
图片
图片
图片

六 总结展望

ESCP可以通过上下文编码器识别未知的、突然变化的环境,并通过一个以上下文编码为条件的上下文策略来适应环境的变化。实验表明,ESCP方法能较好地再现环境编码,并能获得比现有meta-RL方法更优的结果。

但是需要注意的是ESCP需要提供有大量的预设环境进行学习。根据参考文献[1]中的描述,作者构建了7万余个控制任务进行模型训练。如果需要把ESCP方法引入到其它任务上,当任务场景没有大量的预定义控制任务进行训练时,是没有办法直接进行使用的。可以考虑的方法是使用GAN等方法模拟生成大量的预定义控制任务进行训练, 相关工作描述可以查看参考文献[2]。

发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/111085
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!

(0)
股市刺客的头像股市刺客
上一篇 1天前
下一篇 1天前

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注