IJCAIMay, 2021

基于模型的脱机 Planning 与轨迹剪枝

TL;DR本研究提出了一个新型的轻量级基于模型的离线规划框架 MOPP,通过通过学习数据中的行为策略鼓励更激进的轨迹回放,并修剪出问题轨迹,以避免潜在的超出分布样本,相对于现有模型的离线规划和 RL 方法表现更具有竞争性。