Mar, 2023

ENTROPY: 环境转换器和脱机策略优化

TL;DR该研究提出了一种基于序列建模的架构,即 “环境变换器(Environment Transformer)”,以解决先前基于模型的离线强化学习方法在生成多步轨迹时缺乏长期预测能力的问题,并通过该架构提出了一种新的名为 ENTROPY 的强化学习算法,该算法通过通过 “环境变换器” 学习动态模型和奖励函数,并执行离线策略优化。该算法在 MuJoCo 连续控制 RL 环境上进行了评估,结果表明,相对于现有的基于模型的离线方法,ENTROPY 表现出更强大的长期轨迹预测能力,并与目前最先进的基于模型和基于模型的离线强化学习方法相比表现优秀。