BriefGPT.xyz
May, 2022
强化学习的鲁棒性策略梯度方法
Policy Gradient Method For Robust Reinforcement Learning
HTML
PDF
Yue Wang, Shaofeng Zou
TL;DR
开发了具有全局最优性保证和复杂度分析的政策梯度方法,用于处理模型不匹配下的鲁棒强化学习,提出了鲁棒策略梯度和平滑的鲁棒策略梯度方法,并将方法推广到广泛的非模型设置下,提供了仿真结果证明了方法的鲁棒性。
Abstract
This paper develops the first
policy gradient method
with
global optimality guarantee
and complexity analysis for
robust reinforcement learning
→