Jun, 2023

Waypoint Transformer:通过中间目标的监督学习进行强化学习

TL;DR本研究提出了一种增强离线强化学习方法的新方法,即引入中间节点的 Waypoint Transformer,建立在决策变压器 (Decision Transformer) 框架上,自动产生的中间节点有助于连接不完美的轨迹,从而提高离线强化学习的性能和稳定性,并在各种负责的环境和数据配置中表现出与现有最先进的基于时间差异的学习方法相当或更优的性能。