ICLROct, 2021

基于概率模型的策略搜索学习鲁棒控制器

TL;DR通过世界模型估计真实环境以逼近最优策略的基于模型的强化学习方法,通过在高斯过程动态模型中强制施加似然噪声的下限来正则化策略更新,从而得到更健壮的控制器。