ICMLMay, 2024

离线强化学习的最大回报序列建模

TL;DR该论文介绍了最大回报的序列建模概念,提出了 Reinforced Transformer(Reinformer)作为一个整合了最大化回报目标的序列模型。Reinformer 在训练阶段将最大化回报的目标纳入模型,并在推断时引导最优动作的选择,从而在轨迹拼接能力上优于传统强化学习方法和现有的序列模型。