Jan, 2023

策略梯度优化中基线的作用

TL;DR本研究探讨了在策略优化方法中 baseline 的作用,发现使用 state value baseline 可以增强算法的收敛性,但并不是通过减小方差来实现的。相反,value baseline 的主要作用在于抑制 update 的激进程度,进而实现算法的可控性和收敛性。