BriefGPT.xyz
Feb, 2018
基于离线训练和函数近似的收敛演员-评论家算法
Convergent Actor-Critic Algorithms Under Off-Policy Training and Function Approximation
HTML
PDF
Hamid Reza Maei
TL;DR
我们提出了第一种同时适用于状态值和策略函数逼近的政策梯度算法,保证在离线学习下收敛,解决了动作表示问题带来的高维“诅咒”问题,这些算法是基于基于平均状态值函数目标的渐变高演员-评论家和强调梯度的高演员-评论家推导而来,能够保持所有经典Actor-Critic方法的优点,并且在功能逼近方面被证明是可收敛的。
Abstract
We present the first class of
policy-gradient algorithms
that work with both state-value and
policy function-approximation
, and are guaranteed to converge under
→