Feb, 2018

基于离线训练和函数近似的收敛演员-评论家算法

TL;DR我们提出了第一种同时适用于状态值和策略函数逼近的政策梯度算法,保证在离线学习下收敛,解决了动作表示问题带来的高维“诅咒”问题,这些算法是基于基于平均状态值函数目标的渐变高演员-评论家和强调梯度的高演员-评论家推导而来,能够保持所有经典Actor-Critic方法的优点,并且在功能逼近方面被证明是可收敛的。