通过梯度信噪比(GSNR)加速大批量训练
本文利用深度神经网络的斜率噪声比率(GSNR)提出了新的模型参数研究视角,建立了模型参数的 GSNR 和泛化差距之间的定量关系,并展示了相对于浅层模型,DNNs 的梯度下降优化动态自然产生大 GSNR,这可能是 DNNs 出色的泛化能力的关键。
Jan, 2020
本文提出了一种基于梯度信噪比的参数选择方法,以解决深度神经网络在源域过拟合的问题,并通过元学习方法减轻了搜索最佳 dropout 比率的负担。评估结果表明,在标准域泛化基准测试中,我们取得了分类和人脸防伪问题方面的竞争性结果。
Oct, 2023
本文提出了 Scalable and Practical Natural Gradient Descent(SP-NGD)算法,一种能够解决大规模深度神经网络训练中 mini-batch size 增加导致泛化能力下降的问题,且能够快速收敛并达到类似一阶优化方法的泛化性能,同时可进行大规模分布式训练。实验结果表明,使用 SP-NGD 算法进行 ImageNet 数据集上的 ResNet-50 模型训练,能够在 5.5 分钟内,使用 32768 的 mini-batch size 和 1024 个 GPU,获得 75.4% 的 top-1 验证精度;且在 873 个步骤内,即使使用极大的 mini-batch size=131072,也能够达到 74.9% 的准确率。
Feb, 2020
我们研究了随机梯度噪声对生成对抗网络(GAN)训练的影响,并表明它可以防止标准游戏优化方法的收敛,而批量版本收敛。我们提出了一种新颖的随机方差减小外推(SVRE)优化算法,它可以为大多数游戏类别提高文献提出的收敛速度。我们在 MNIST 上经验性地观察到 SVRE 在计算上比批处理方法更便宜,并且 SVRE 在标准数据集上产生更稳定的 GAN 训练。
Apr, 2019
本文研究使用仅依赖梯度的统计量 (gradient noise scale) 来预测各种深度学习模型中最适合的 batch size 的大小,结果表明该参数可以在很多领域都适用,包括监督学习数据、强化学习领域以及生成模型训练。
Dec, 2018
通过理论分析和大量实验证明,在 Deep Gaussian Processes (DGPs) 使用加权变分推断训练的梯度估计中,信噪比问题是普遍存在的。本文提出的基于双重重参数化的梯度估计方法解决了这个问题,提高了 DGPs 模型的预测性能。
Nov, 2020
本文提出了一种基于 Nesterov 的动量和增长 epoch size 技术设计的快速随机方差缩减梯度(FSVRG)方法,其具有较低的复杂度和强的收敛性,可以直接解决具有非平滑组件函数的问题,并在解决 logistic 回归,岭回归,套索和 SVM 等各种机器学习问题中优于 Katysha 方法。
Mar, 2017
通过选择性地针对信噪比,冻结其余模块,我们提出了一种名为 Spectrum 的方法来加速大规模语言模型的训练,同时减少了 GPU 内存的使用。实验证明,与现有方法如 QLoRA 相比,该方法在模型质量和 VRAM 效率方面具有较高的效果。
Jun, 2024
本研究开发出用于自然语言处理的基于 RNN 的 4096 维乘法 LSTM 模型,结合混合精度算法和大规模并行计算,使模型短短 4 小时内能在亚马逊评论数据集上通过三次训练实现无监督文本重构;同时,我们提供了一种学习率策略,使得该模型可以在 32k 批量大小的情况下收敛,这一结果对于商用应用和深度学习研究者来说具有重要意义。
Aug, 2018