ICLRNov, 2018

在线规划,离线学习:基于模型控制的高效学习和探索

TL;DR提出了一种 POLO (计划在线,学习离线) 框架,利用局部基于模型的控制、全局价值函数学习和探索之间的协同关系来解决需要不断在世界中行动和学习的代理问题,并探讨了轨迹优化、价值函数的近似和不确定性估计等方面的问题,最终在几分钟的真实世界体验中解决了类人运动和灵巧的手中操作这样的复杂模拟控制任务。