16 位神经网络训练中减缓反向传播数值不稳定性的高效方法

Jul, 2023

16 位神经网络训练中减缓反向传播数值不稳定性的高效方法

An Efficient Approach to Mitigate Numerical Instability in Backpropagation for 16-bit Neural Network Training

Juyoung Yun

TL;DR在这项研究中，我们深入研究了机器学习模型在 16 位计算中出现的数值不稳定性，特别是在使用 RMSProp 和 Adam 等常见优化算法时。我们确定单一超参数 epsilon 是导致这种数值不稳定性的主要原因。通过对 16 位计算中这些优化器中 epsilon 的作用进行深入探索，我们发现微调其值可以恢复 RMSProp 和 Adam 的功能，从而实现 16 位神经网络的有效利用。我们提出了一种新的方法来缓解已确定的数值不稳定性问题。这种方法充分利用 Adam 优化器的更新，并显著提高了 16 位计算中学习过程的鲁棒性。这项研究有助于更好地理解低精度计算中的优化问题，并提供了解决深层神经网络训练中长期存在问题的有效方法，为更高效、稳定的模型训练开辟了新的途径。

Abstract

In this research, we delve into the intricacies of the numerical instability observed in 16-bit computations of machine learning models, particularly when employing popular →

numerical instability 16-bit computations optimization algorithms neural networks epsilon

发现论文，激发创造

使用 8 位浮点数进行混合精度训练

本文介绍了一个使用 8 位浮点表示法训练深度神经网络的方法，减少计算精度和主权重复制的精度要求，并且通过强化误差传播和降低量化噪声的方法来提高模型性能。实验表明，所提出方法在多个数据集和不同工作负载下与精度基线相比不降反升。

May, 2019

Adam 隐式偏差研究

前人的研究表明，通过反向误差分析可以找到逼近梯度下降轨迹的常微分方程（ODEs）。本文证明 RMSProp 和 Adam 中存在类似的隐式正则化现象，取决于超参数和训练阶段，并与之前的研究有所不同。我们还进行了数值实验，并讨论了这些事实如何影响泛化能力。

Aug, 2023

非凸优化中 RMSProp 和 ADAM 的收敛性保证及与 Nesterov 加速的实证比较

本篇论文探讨了 ADAM 和 RMSProp 优化算法的理论性质和收敛性能，并通过实验比较了它们与 Nesterov 梯度法在多种自编码器结构和数据集上的表现，并表明调整其超参数可以获得更好的泛化性能。

Jul, 2018

使用 8 位浮点数训练深度神经网络

本文介绍了使用较低的精度来训练深度神经网络的成功实践，通过引入基于块的操作和浮点随机取整等技术，成功地实现了在 8 位浮点数下对多种深度学习模型和数据集进行了精确的训练。这些新技术为新一代硬件训练平台奠定了基础，并具有提高 2-4 倍吞吐量的潜力。

Dec, 2018

纯 16 位浮点数神经网络的防御

本文描述了纯 16 位浮点神经网络的高效性以及其在性能上与混合精度和 32 位浮点模型的类似甚至更好的表现，并提供了机器学习实践者重新考虑在各种应用中使用纯 16 位网络的机会。

May, 2023

朝着对大幅扰动有抵抗力的深度学习模型

本文提出了一种网络权重初始化的方法，使其能够在更高噪声水平下学习，同时评估了在 MNIST 和 CIFAR10 数据集上增强对抗噪声对学习范围的影响，并通过对简单多维伯努利分布的理论结果进行研究，提出了一些关于 MNIST 数据集可行扰动范围的见解。

Mar, 2020

连续学习的步长优化

在这篇论文中，我们展示了常用的算法（如 RMSProp 和 Adam）在调整步长向量时忽略了其适应过程对整体目标函数的影响，并通过简单问题的实验显示，与 RMSProp 和 Adam 相比，IDBD 算法可以持续改进步长向量。我们讨论了两种方法的差异和各自的限制，并建议将两种方法结合起来以提高神经网络在持续学习中的性能。

Jan, 2024

ADAM 在非凸背景下的常数步长收敛性：一个简单的证明

我们在非凸设置中对 ADAM 的常数步长版本进行理论分析，证明了步长达到几乎肯定的渐近收敛性所需的充分条件，并提供了在处理平滑的非凸函数时确定性 ADAM 达到近似临界性的运行时界限。

Sep, 2023

从 FP8 回到 FP 减少精度对 LLM 训练稳定性的效果量化

降低精度的浮点表示在大型语言模型（LLM）训练中的稳定性及经济性的调查和分析。

May, 2024

Adam 和 RMSProp 收敛的充分条件

介绍了一种易于检查的充分条件，仅依赖于基本学习率和历史二阶动量的组合，以保证泛型 Adam/RMSProp 的全局收敛性，同时证明了几种变体的收敛性，并且阐明了 Adam 和 RMSProp 的本质区别。

Nov, 2018