Jul, 2023

16 位神经网络训练中减缓反向传播数值不稳定性的高效方法

TL;DR在这项研究中,我们深入研究了机器学习模型在 16 位计算中出现的数值不稳定性,特别是在使用 RMSProp 和 Adam 等常见优化算法时。我们确定单一超参数 epsilon 是导致这种数值不稳定性的主要原因。通过对 16 位计算中这些优化器中 epsilon 的作用进行深入探索,我们发现微调其值可以恢复 RMSProp 和 Adam 的功能,从而实现 16 位神经网络的有效利用。我们提出了一种新的方法来缓解已确定的数值不稳定性问题。这种方法充分利用 Adam 优化器的更新,并显著提高了 16 位计算中学习过程的鲁棒性。这项研究有助于更好地理解低精度计算中的优化问题,并提供了解决深层神经网络训练中长期存在问题的有效方法,为更高效、稳定的模型训练开辟了新的途径。