May, 2024

策略梯度方法的平滑化效果

TL;DR通过研究,我们建立了深度强化学习中的策略梯度方法和解决反向热方程之间的等价性,并发现了策略梯度方法在随机性环境下的局限性,从而阐明了它对探索的影响和不同方面的效果。