Jun, 2021

演员-评论家和策略梯度之间的差距表征

TL;DR本文提出了一种旨在改进强化学习中Actor-critic方法的算法——Residual Actor-Critic和Stackelberg Actor-Critic,可以提高现有方法的样本效率和最终性能,并通过对Actor和Critic之间的两人博弈进行深入分析, 建立了它们与政策梯度方法的确切联系。