May, 2021

基于模型的脱机Planning与轨迹剪枝

TL;DR本研究提出了一个新型的轻量级基于模型的离线规划框架MOPP,通过通过学习数据中的行为策略鼓励更激进的轨迹回放,并修剪出问题轨迹,以避免潜在的超出分布样本,相对于现有模型的离线规划和RL方法表现更具有竞争性。