在线学习与信息指数：关于批次大小和时间 / 复杂度权衡的重要性

Jun, 2024

在线学习与信息指数：关于批次大小和时间 / 复杂度权衡的重要性

Online Learning and Information Exponents: On The Importance of Batch size, and Time/Complexity Tradeoffs

Luca Arnaboldi, Yatin Dandi, Florent Krzakala, Bruno Loureiro, Luca Pesce...

TL;DR通过研究在具有各向同性协变量的多指标目标函数上使用一遍随机梯度下降法（SGD）训练两层神经网络的迭代时间和批次大小之间的影响，我们揭示了最佳批次大小对于缩短迭代时间的优化函数，同时不改变总样本复杂性，并通过 “相关损失 SGD” 来克服此基本限制。

Abstract

We study the impact of the batch size $n_b$ on the iteration time $T$ of training two-layer neural networks with one-pass →

batch size iteration time neural networks stochastic gradient descent training protocol

发现论文，激发创造

逐步学习两层神经网络（巨大步长）

研究浅层神经网络的训练动态，探究少量大批量梯度下降步骤在哪些条件下可以促进核区以外的特征学习。

May, 2023

利用连续时间控制和摄动理论解锁最佳批处理大小日程

我们推导了随机梯度下降和类似算法的最优批次大小计划，通过近似离散参数更新过程为一族随机微分方程，进而使用学习率展开进行优化处理。我们应用这些结果于线性回归任务中。

Dec, 2023

随机梯度下降的大批量大小计算效率低下

研究增加小批量大小以减少神经网络训练时间所面临的挑战，并通过广泛的经验分析得出，增加批量大小超过一定点对于训练或测试损失的收敛时间没有减少，而这一点通常低于当前系统的容量，说明常用的大批量优化训练策略在无法充分利用所有可用的计算资源之前就会失败。

Nov, 2018

神经网络快速训练的在线批量选择

这篇研究探讨了深度神经网路的随机非凸优化方法中，通过在线选择 “分组数据量”（Batch）来加速学习的策略，提出了一种基于最新数据偏差排名的算法，并在 MNIST 数据集上实验证明，可以加速 AdaDelta 和 Adam 等方法的学习效率。

Nov, 2015

使用常数和衰减的学习率的随机梯度下降的迭代和随机一阶预言机复杂度

使用常数或递减的学习率的随机梯度下降法（SGD）与关键的批次大小能够最小化深度学习中的非凸优化的随机一阶复杂性，并且与现有的一阶优化器相比较具有实用性。

Feb, 2024

重用梯度下降批次在两层网络中的好处：打破信息与跳跃指数的诅咒

使用两层神经网络学习多指标目标函数时，我们研究了训练动态。我们关注多次梯度下降（GD）使用多次批次并显示它显著改变了对可学习功能的结论，与单次梯度下降相比。特别是，我们发现具有有限步长的多次 GD 能够克服目标函数的信息指数（Ben Arous 等人，2021）和跃迁指数（Abbe 等人，2023）的限制，从而与目标子空间重叠。我们表明，在重新使用批次时，即使对于不满足阶梯特性的函数（Abbe 等人，2021），网络在仅两个时间步骤内即能与目标子空间有重叠。我们对有限时间内有效学习的（广义的）函数类进行了表征。我们的结果证明基于动态均场理论（DMFT）的分析。我们进一步提供了权重的低维投影的动态过程的闭合形式描述，并通过数值实验来说明该理论。

Feb, 2024

重新审视深度神经网络的小批量训练

本文研究了基于小批量样本随机梯度优化的现代深度神经网络训练中，不同批量大小对测试性能和泛化性能的影响，并指出使用小批量训练可以提供更稳定和可靠的结果。

Apr, 2018

插值的威力：理解 SGD 在现代超参模型学习中的有效性

本文旨在正式解释当代机器学习中观察到的 SGD 快速收敛现象。我们重点观察现代学习架构是过参数化的，并且被训练用于通过将经验损失（分类和回归）驱动到接近零的插值数据。我们表明，这些插值方案允许 SGD 快速收敛，与全梯度下降迭代次数相当。对于凸损失函数，我们获得了与全梯度下降相似的 “迷你批次” SGD 的指数收敛界限。关键的迷你批次大小可以视为有效迷你批次并行化的限制，并且几乎独立于数据大小。

Dec, 2017

贝叶斯视角下的泛化和随机梯度下降

研究机器学习中的二个核心问题 —— 如何预测最小值是否能推广到测试集，以及为什么随机梯度下降找到的最小值能很好地推广；探讨了小批量大小影响参数朝向大证据最小值的作用；当学习速率固定时，建议选择使测试集准确性最大化的最佳批次大小。

Oct, 2017

使用敌对式训练和二阶信息进行神经网络的大批量训练

本文提出了一种基于 Ray 框架的新型自适应批量大小框架，以及一种使用二阶方法和对抗训练的新型自适应批量大小训练方案，该方法在多个神经网络和数据集上均实现了比现有解决方案更好的效果。

Oct, 2018