Feb, 2021

分散随机梯度下降的稳定性和泛化能力

TL;DR本论文提出了分散化随机梯度下降法的新方法,并使用(非)凸优化理论建立了第一个针对分散化随机梯度下降法的稳定性和泛化保证。我们的理论结果基于少数常见且温和的假设,并揭示分散化将首次降低SGD的稳定性。通过使用多种分散化设置和基准机器学习模型,证实了我们的理论发现。