Oct, 2023

COPlanner: 保守推进并乐观探索的模型引导强化学习规划器

TL;DR提出了一种基于规划的框架 $ exttt {COPlanner}$,通过保守的模型展开和乐观的环境探索,解决了模型误差问题,提高了模型强化学习方法的样本效率和渐近性能。