尾平均和小批量化克服 SGD 饱和

Feb, 2019

Beating SGD Saturation with Tail-Averaging and Minibatching

Nicole Mücke, Gergely Neu, Lorenzo Rosasco

TL;DR本文探讨随机梯度下降（SGD）在非参数设置中的最小二乘学习，结果显示如何通过多次传递，小批量和平均以及尾平均的不同变体来结合以实现最优学习错误，同时指出尾平均可以比均匀平均获得更快的收敛速率，并且结合使用尾平均和小批量可以比单独使用任何一个组件更具有攻击性的步长选择。

Abstract

While stochastic gradient descent (SGD) is one of the major workhorses in machine learning, the learning properties of many practically used variants are poorly understood. In this paper, we consider least squares learn

stochastic gradient descent least squares learning nonparametric setting tail averaging mini-batching

发现论文，激发创造

最小二乘回归的随机梯度下降并行化：小批量、平均和模型错误

该研究探讨了在随机梯度下降中广泛使用的平均方案的好处。特别是，通过对最小二乘回归的随机逼近问题进行非渐进超额风险分析，提供了这些方案的性能保证，并提出了高度可并行化的随机梯度下降方法。同时，该研究认为，为了保证最小极大风险，针对混浊噪声的步长必须是噪声属性的一个函数。

Oct, 2016

线性回归中恒定步长随机梯度下降的良性过拟合

研究算法归纳偏差对于防止过度拟合的重要性，探讨使用常数步长随机梯度下降算法在超参数化情况下进行线性回归的问题和解决方案，提供了数据协方差矩阵全部的特征值，阐述一个可以使得泛化成为可能的偏差 - 方差分解，实验结果表明理论结果的正确性。

Mar, 2021

非光滑优化的随机梯度下降：收敛结果与最优平均方案

本文探讨了在没有光滑假设的情况下，以及通过运行平均方案将 SGD 迭代转换为具有最佳优化精度的解决方案的性能，并证明了对于凸非光滑目标函数，最后一个 SGD 迭代的次优性的程度随 T 的轮次按 O（log（T）/sqrt（T））缩放，对于非光滑强凸情况，次优性的程度随 T 按 O（log（T）/ T）缩放。此外，本文提出了一种新的简单平均方案，并提供了一些实验说明。

Dec, 2012

双尾平均：随时自适应的偶尔最优迭代平均用于随机优化

提出一种双尾平均算法（two-tailed averaging algorithm），该算法可以在没有超参数的情况下提高泛化效果，同时避免了过早或过晚地开始平均的问题，其基于两个自适应长度的流动平均值，其中一个在某种程度上实现了近似最优，只需要额外存储两组权重和定期计算损失即可。

Sep, 2022

加权平均随机梯度下降：渐近正态性与最优性

本文探讨了随机梯度下降算法的加速收敛方法，提出了一种自适应加权平均方案，并提供了非渐近收敛的统计保证和在线推断方法。最终的结论表明，该自适应加权平均方案不仅在统计率上是最优的，而且在非渐近收敛方面也具有有利的效果。

Jul, 2023

并行 SGD：何时使用平均有帮助？

研究了多个工作者独立运行 SGD 并定期平均模型的常见但未被充分理解的做法，探讨了模型平均作为方差减少机制的两种方式，并说明了平均频率对收敛的影响，对于凸目标函数，频繁平均的好处依赖于梯度方差包络，在非凸目标函数中，该好处取决于多个全局最优点的存在。在合成数据和实际数据上进行了多核实验以补充研究结果。

Jun, 2016

局部 SGD 比小批量 SGD 更好吗？

本文研究了局部 SGD（也称为并行 SGD 和联邦平均），一个自然且常用的随机分布式优化方法。在凸设置中，我们证明了局部 SGD 严格优于小批量 SGD，并且加速局部 SGD 在凸二次目标上是最小极值最优的。同时，我们还提供了总体上至少有时优于小批量 SGD 的第一个保证，并展示了局部 SGD 存在一种性能下限，比小批量 SGD 保证更差。

Feb, 2020

使用平均随机梯度下降实现优化的单遍大规模学习

本文介绍了一种针对大规模学习的平均随机梯度下降方法，并提出了一种可以避免其使用不当学习速率时需要巨量数据才能到达渐近区域的简单方法，试验证明该方法在训练大规模线性分类器时优于其他算法。

Jul, 2011

并行重启 SGD：更快收敛，更少通信 —— 揭秘深度学习中模型平均的原理

本篇论文探讨了为何模型平均可以降低神经网络分布式训练中的通信开销，并阐述该方法与并行小批量随机梯度下降（SGD）在训练时间上的相似性。

Jul, 2018

平均加速随机梯度下降算法：有限样本速率和渐近正态性

本研究分析了随机梯度下降与动量法在强凸设置下的有限样本收敛速度，并证明了 Polyak-averaging 版本的 SGDM 估算器的渐近正态性以及其与平均 SGD 的渐近等价性。

May, 2023