Dec, 2020

策略梯度寻找二阶稳定点的样本复杂度

TL;DR本研究提出一种基于强化学习的优化方法,并使用二阶导数的技术证明了其收敛到二阶稳定点,从而避免了算法陷入鞍点或局部最小值。