ICLRMar, 2023

通过迭代能量最小化进行序列模型规划

TL;DR本研究提出了一种将规划与序列模型相结合的方法,基于迭代能量最小化的思路,通过训练掩盖语言模型以捕捉动作轨迹的隐式能量函数,并将规划形式化为最小化能量的轨迹,实现了在不同任务上改进强化学习性能,并证明了通过迭代优化程序能够实现新的任务泛化、测试时间约束自适应和计划组合的能力。