Oct, 2023

基于模型重参数化的策略梯度方法:理论与实用算法

TL;DR对长期强化学习问题应用基于模型的 ReParameterization Policy Gradient Methods 时,可能遇到爆炸梯度方差引起的优化困难。通过对模型的收敛性和函数逼近器的平滑性的分析,我们提出了一种谱归一化方法以缓解长模型展开引起的方差问题。实验结果表明,适当的归一化显著降低了基于模型的 ReParameterization Policy Gradient Methods 的梯度方差。与 Likelihood Ratio 梯度估计器等其他梯度估计器相比,我们的方法的性能相当或更好。