May, 2022

强化学习的鲁棒性策略梯度方法

TL;DR开发了具有全局最优性保证和复杂度分析的政策梯度方法,用于处理模型不匹配下的鲁棒强化学习,提出了鲁棒策略梯度和平滑的鲁棒策略梯度方法,并将方法推广到广泛的非模型设置下,提供了仿真结果证明了方法的鲁棒性。