Oct, 2023
COPlanner: 保守推进并乐观探索的模型引导强化学习规划器
COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically for Model-Based RL
Xiyao Wang, Ruijie Zheng, Yanchao Sun, Ruonan Jia, Wichayaporn Wongkamjan...
TL;DR提出了一种基于规划的框架 $ exttt {COPlanner}$,通过保守的模型展开和乐观的环境探索,解决了模型误差问题,提高了模型强化学习方法的样本效率和渐近性能。