Jul, 2023
基于模型的规划提炼出有理论保证的策略改进
Theoretically Guaranteed Policy Improvement Distilled from Model-Based Planning
Chuming Li, Ruonan Jia, Jie Liu, Yinmin Zhang, Yazhe Niu...
TL;DR通过开发一种从基于模型的规划到策略的蒸馏方法,我们扩展了软负责人 - 评论者算法(SAC)的策略改进步骤,并证明了这种方法在改进过程中具有单调性和收敛性的理论保证。