Feb, 2024

应对随机鞍点优化中的无界梯度问题

TL;DR研究用于找到凸凹函数鞍点的随机一阶方法的性能。我们提出了一种简单有效的正则化技术,稳定迭代并提供有意义的性能保证,即使域和梯度噪声与迭代的大小成线性关系(可能是无界的)。此外,我们还将算法应用于强化学习中的特定问题,在无偏扩展的平均奖励 MDP 中,即使没有先验知识,也能找到接近最优策略的性能保证。