Aug, 2020

单时间尺度演员 - 评论家算法可证明找到全局最优策略

TL;DR本研究主要研究了强化学习中最受欢迎的 Actor-Critic 算法的全局收敛性和全局最优性。作者在单时间尺度上进行更新,其中演员和评论家同时更新。研究结果表明,均使用线性或深度神经网络时,演员序列以 $O (K^{-1/2})$ 的次线性速率收敛于全局最优策略,尤其是当使用深度神经网络时,该算法首次找到非线性函数逼近情况下的全局最优策略。