Apr, 2020

改进(自然)Actor-Critic 算法的样本复杂度界限

TL;DR该研究论文在马可夫采样、小批量数据和通用策略类逼近等条件下,对比了演员 - 评论家算法(AC)和自然演员 - 评论家算法(NAC)的收敛速率和样本复杂度。实验表明在无限时间范围内,AC 和 NAC 可以比策略梯度(PG)和自然策略梯度(NPG)更快地达到精确的稳态点或全局最优点,而且收敛速度比之前的算法更快。