SGD批大小对自编码器学习的影响：稀疏性，锐度和特征学习

Aug, 2023

SGD批大小对自编码器学习的影响：稀疏性，锐度和特征学习

The Effect of SGD Batch Size on Autoencoder Learning: Sparsity, Sharpness, and Feature Learning

Nikhil Ghosh, Spencer Frei, Wooseok Ha, Bin Yu

TL;DR利用随机梯度下降(Stochastic Gradient Descent, SGD)算法研究了在正交数据上训练具有线性或ReLU激活函数的单神经元自编码器的动力学。我们发现对于这个非凸问题，使用恒定步长的随机初始化SGD算法可以成功找到全局最小值，但具体找到的全局最小值取决于批量大小。在全批次设置中，我们发现解是稠密的（即非稀疏的），与初始化方向非常吻合，表明特征学习很少发生。另一方面，对于任何小于样本数的批量大小，SGD会找到一个稀疏且几乎正交于初始化的全局最小值，表明随机梯度的随机性在这种情况下引起了一种不同类型的“特征选择”。此外，如果通过Hessian矩阵的迹来衡量最小值的锐度，则使用全批次梯度下降找到的最小值比使用小批量大小找到的最小值更平坦，这与先前的研究相矛盾，先前的研究认为大批量会导致更锐利的最小值。为了证明SGD使用恒定步长的收敛性，我们引入了非齐次随机游走理论中的重要工具，该工具对于独立研究可能具有重要意义。

Abstract

In this work, we investigate the dynamics of stochastic gradient descent (SGD) when training a single-neuron autoencoder with linear or ReLU activation on orthogonal data. We show that for this non-convex problem

发现论文，激发创造

关于深度学习大批量训练的广义缩小和尖峰最小化问题

通过实验证明大批量随机梯度下降法容易陷入训练和测试函数的尖峰最小值，从而导致模型泛化能力下降，而小批量方法表现更好，这可能是由于梯度估计中的固有噪声引起的，可以采用多种策略来帮助大批量方法消除这种泛化差距。

Sep, 2016

随机梯度下降中影响最小值的三个因素

探讨了随机梯度下降应用于深度神经网络时的动态收敛特性及其与学习率、批大小等因素对最终解的影响关系，发现学习率与批大小之比是影响 SGD 动态和解宽度的关键决定因素，并得出比值越高，解越宽且一般具有更好的泛化性能的结论。

Nov, 2017

插值的威力：理解SGD在现代超参模型学习中的有效性

本文旨在正式解释当代机器学习中观察到的SGD快速收敛现象。我们重点观察现代学习架构是过参数化的，并且被训练用于通过将经验损失（分类和回归）驱动到接近零的插值数据。我们表明，这些插值方案允许SGD快速收敛，与全梯度下降迭代次数相当。对于凸损失函数，我们获得了与全梯度下降相似的“迷你批次”SGD的指数收敛界限。关键的迷你批次大小可以视为有效迷你批次并行化的限制，并且几乎独立于数据大小。

Dec, 2017

深度神经网络损失函数的极限方向与随机梯度下降步长的关系

使用较小的学习率和SGD最陡峭的方向进行训练可以提高模型的训练速度和泛化能力，而较大的学习率或较小的批量大小将导致SGD进入更宽的区域。

Jul, 2018

无痛随机梯度: 插值，线性搜索和收敛速率

本文提出了一种使用线性搜索技术自动设置步长的随机梯度下降算法，在数据插值设置中，使用 Armijo 线性搜索方法的 SGD 实现凸和强凸函数的确定性收敛率，同时提出了一种 Lipschitz 线性搜索策略的随机额外梯度的算法，该算法在满足嵌入条件的非凸问题和鞍点问题的情况下实现了线性收敛率，并在标准分类任务上表现出了良好的性能。

May, 2019

随机梯度下降中噪声的泛化益处

研究表明在拥有相同迭代次数的情况下，小或适中大小的batch在测试集上比非常大的batch具有更好的表现，同时研究如何随着预算增长而改变最佳学习率计划，并提供一个基于随机微分方程的SGD动态的理论解释。

Jun, 2020

方向很重要：关于中等学习率的随机梯度下降的隐式偏差

本研究针对模型学习速率为中等并逐渐降低的情况，研究了SGD和GD在超参数调节中的常见行为，以此试图解决机器学习中的算法偏差问题，并得出了不同方向偏差可能导致最终预测结果差异的结论。

Nov, 2020

使用常数和衰减的学习率的随机梯度下降的迭代和随机一阶预言机复杂度

使用常数或递减的学习率的随机梯度下降法（SGD）与关键的批次大小能够最小化深度学习中的非凸优化的随机一阶复杂性，并且与现有的一阶优化器相比较具有实用性。

Feb, 2024

同时增加批量大小和学习率加速随机梯度下降

本研究解决了迷你批量随机梯度下降（SGD）在批量大小和学习率调整上的不足。通过理论分析四种不同的调度器，提出在批量增大和学习率增加的情况下，SGD可以更有效地最小化经验损失的全梯度范数。研究结果表明，这种新颖的调度方案能显著加速训练过程，提升性能。

Sep, 2024

增加批量大小和学习率加速随机梯度下降

本研究解决了小批量随机梯度下降(SGD)在批量大小和学习率设置上的不足，以减少深度神经网络训练中的经验损失。提出了四种调度器的理论分析，发现使用批量大小和学习率同时增加的调度器能够更快地减小经验损失的全梯度范数，具有显著的加速效果。

Sep, 2024