Nov, 2023

高效逃离非凸政策优化中的鞍点

TL;DR我们提出了一种使用 Hessian 矩阵 - 向量积的方差约简二阶方法,其样本复杂度为~O (ε^(-3)),并收敛于近似二阶稳定点 (SOSP)。该方法通过使用 HVP 项在不使用 IS 权重的情况下改善了达到近似 SOSPs 的最佳已知样本复杂度的速率,实验结果表明该算法优于现有技术,并对随机种子变化更稳健。