Jul, 2023

基于模型的规划提炼出有理论保证的策略改进

TL;DR通过开发一种从基于模型的规划到策略的蒸馏方法,我们扩展了软负责人 - 评论者算法(SAC)的策略改进步骤,并证明了这种方法在改进过程中具有单调性和收敛性的理论保证。