通过梯度信噪比（GSNR）加速大批量训练

Sep, 2023

通过梯度信噪比（GSNR）加速大批量训练

Accelerating Large Batch Training via Gradient Signal to Noise Ratio (GSNR)

Guo-qing Jiang, Jinlong Liu, Zixiang Ding, Lin Guo, Wei Lin

TL;DR基于梯度信噪比的方差缩减梯度下降技术对大批量任务进行了快速训练动态的理论分析和泛化分析，证明了其加速训练、缩小泛化差距和提高最终精度的效果。

Abstract

As models for nature language processing (NLP), computer vision (CV) and recommendation systems (RS) require surging computation, a large number of GPUs/TPUs are paralleled as a large batch (LB) to improve training throughput. However, training such LB tasks often meets large generalization g

large batch tasks variance reduced gradient descent generalization gap bert pretraining imagenet training

发现论文，激发创造

通过参数的 GSNR 解析神经网络良好泛化的原因

本文利用深度神经网络的斜率噪声比率（GSNR）提出了新的模型参数研究视角，建立了模型参数的 GSNR 和泛化差距之间的定量关系，并展示了相对于浅层模型，DNNs 的梯度下降优化动态自然产生大 GSNR，这可能是 DNNs 出色的泛化能力的关键。

Jan, 2020

基于参数的梯度信噪比引导的域泛化

本文提出了一种基于梯度信噪比的参数选择方法，以解决深度神经网络在源域过拟合的问题，并通过元学习方法减轻了搜索最佳 dropout 比率的负担。评估结果表明，在标准域泛化基准测试中，我们取得了分类和人脸防伪问题方面的竞争性结果。

Oct, 2023

大规模深度学习的可伸缩实用自然梯度

本文提出了 Scalable and Practical Natural Gradient Descent（SP-NGD）算法，一种能够解决大规模深度神经网络训练中 mini-batch size 增加导致泛化能力下降的问题，且能够快速收敛并达到类似一阶优化方法的泛化性能，同时可进行大规模分布式训练。实验结果表明，使用 SP-NGD 算法进行 ImageNet 数据集上的 ResNet-50 模型训练，能够在 5.5 分钟内，使用 32768 的 mini-batch size 和 1024 个 GPU，获得 75.4% 的 top-1 验证精度；且在 873 个步骤内，即使使用极大的 mini-batch size=131072，也能够达到 74.9% 的准确率。

Feb, 2020

使用方差约减外推算法减少 GAN 训练中的噪声

我们研究了随机梯度噪声对生成对抗网络（GAN）训练的影响，并表明它可以防止标准游戏优化方法的收敛，而批量版本收敛。我们提出了一种新颖的随机方差减小外推（SVRE）优化算法，它可以为大多数游戏类别提高文献提出的收敛速度。我们在 MNIST 上经验性地观察到 SVRE 在计算上比批处理方法更便宜，并且 SVRE 在标准数据集上产生更稳定的 GAN 训练。

Apr, 2019

大批量训练的实证模型

本文研究使用仅依赖梯度的统计量 (gradient noise scale) 来预测各种深度学习模型中最适合的 batch size 的大小，结果表明该参数可以在很多领域都适用，包括监督学习数据、强化学习领域以及生成模型训练。

Dec, 2018

关于深高斯过程变分推断中信噪比问题的研究

通过理论分析和大量实验证明，在 Deep Gaussian Processes (DGPs) 使用加权变分推断训练的梯度估计中，信噪比问题是普遍存在的。本文提出的基于双重重参数化的梯度估计方法解决了这个问题，提高了 DGPs 模型的预测性能。

Nov, 2020

机器学习中具有动量加速作用的快速随机方差减少梯度方法

本文提出了一种基于 Nesterov 的动量和增长 epoch size 技术设计的快速随机方差缩减梯度（FSVRG）方法，其具有较低的复杂度和强的收敛性，可以直接解决具有非平滑组件函数的问题，并在解决 logistic 回归，岭回归，套索和 SVM 等各种机器学习问题中优于 Katysha 方法。

Mar, 2017

频谱：信噪比目标训练

通过选择性地针对信噪比，冻结其余模块，我们提出了一种名为 Spectrum 的方法来加速大规模语言模型的训练，同时减少了 GPU 内存的使用。实验证明，与现有方法如 QLoRA 相比，该方法在模型质量和 VRAM 效率方面具有较高的效果。

Jun, 2024

卷积网络的大批量训练

本文介绍了一种新的大批量训练算法：LARS，该算法采用分层自适应速率缩放，可使得尽管使用大批量训练，Alexnet 和 Resnet-50 的准确性不会降低。

Aug, 2017

大规模语言建模：在四小时内收敛于 40GB 文本

本研究开发出用于自然语言处理的基于 RNN 的 4096 维乘法 LSTM 模型，结合混合精度算法和大规模并行计算，使模型短短 4 小时内能在亚马逊评论数据集上通过三次训练实现无监督文本重构；同时，我们提供了一种学习率策略，使得该模型可以在 32k 批量大小的情况下收敛，这一结果对于商用应用和深度学习研究者来说具有重要意义。

Aug, 2018