Jun, 2020

随机鞍点问题的泛化界

TL;DR本文研究了随机鞍点问题的经验鞍点解的泛化界,证明了在具有 Lipschitz 连续和强凸强凹的目标函数的情况下,可以使用统一稳定性论证来建立一个 O(1/n)的泛化界,并在没有强凸性和没有有界域的情况下提供了泛化界。在马尔可夫决策过程中的批量策略学习和用于随机博弈的混合策略纳什均衡估计的两个示例中,我们展示了正则化 ESP 解具有接近最优样本复杂度。