BriefGPT.xyz
Feb, 2021
分散随机梯度下降的稳定性和泛化能力
Stability and Generalization of the Decentralized Stochastic Gradient Descent
HTML
PDF
Tao Sun, Dongsheng Li, Bao Wang
TL;DR
本论文提出了分散化随机梯度下降法的新方法,并使用(非)凸优化理论建立了第一个针对分散化随机梯度下降法的稳定性和泛化保证。我们的理论结果基于少数常见且温和的假设,并揭示分散化将首次降低SGD的稳定性。通过使用多种分散化设置和基准机器学习模型,证实了我们的理论发现。
Abstract
The
stability
and
generalization
of stochastic gradient-based methods provide valuable insights into understanding the algorithmic performance of machine learning models. As the main workhorse for deep learning,
→