ICLROct, 2021

针对连续控制评估基于模型的规划和规划器分摊

TL;DR本文探讨了基于模型的控制方法是否能够超越基于数据的方法。研究人员通过将模型预测控制与学习模型和基于数据的策略学习相结合的方式,对多种具有挑战性的运动任务进行了评估,并发现:经过良好调节的基于数据的策略学习代理是高自由度控制问题的强基准。但是,针对困难的多任务 / 多目标场景,经过训练的动态模型和学习的策略作为模型预测控制的建议,可以显著提高性能和数据效率。最后,研究表明,即使没有性能损失,也可以将基于模型的规划器简化为一种策略,从而将计划计算的负担分担到了策略中。