ICMLJun, 2023

去中心化 SGD 和平均方向 SAM 在渐近情况下等价

TL;DR本文挑战了常规信念,提出了一种完全新的角度来理解分散学习,证明了分散随机梯度下降隐含地最小化了一种平均方向锐度感知最小化算法的损失函数,在常规非凸非 $/beta/$ - 平滑设置下的这种惊人的渐近等价关系揭示了一种本质上的正则化 - 优化权衡和分散的三个优点。