Feb, 2024
离策略和同策略策略梯度方法何时一致?
When Do Off-Policy and On-Policy Policy Gradient Methods Align?
Davide Mambelli, Stephan Bongers, Onno Zoeter, Matthijs T.J. Spaan, Frans A. Oliehoek
TL;DR政策梯度方法是广泛应用于具有连续动作空间的任务的强化学习算法,本研究探讨了远离策略目标和传统的在线策略目标之间的差异,并提供了首个理论分析以及条件减小差距的经验证据。