深度神经网络的 8 位数字格式
本文介绍了使用较低的精度来训练深度神经网络的成功实践,通过引入基于块的操作和浮点随机取整等技术,成功地实现了在 8 位浮点数下对多种深度学习模型和数据集进行了精确的训练。这些新技术为新一代硬件训练平台奠定了基础,并具有提高 2-4 倍吞吐量的潜力。
Dec, 2018
本研究深入探究了采用浮点数格式(FP8)进行神经网络量化的性能优势,分析了尾数和指数位数选择对性能的影响,并通过大量实验证明,相对于 INT8 格式,FP8 格式具有更高的精度和更优的性能。
Aug, 2022
本文介绍了一个使用 8 位浮点表示法训练深度神经网络的方法,减少计算精度和主权重复制的精度要求,并且通过强化误差传播和降低量化噪声的方法来提高模型性能。实验表明,所提出方法在多个数据集和不同工作负载下与精度基线相比不降反升。
May, 2019
本文描述了纯 16 位浮点神经网络的高效性以及其在性能上与混合精度和 32 位浮点模型的类似甚至更好的表现,并提供了机器学习实践者重新考虑在各种应用中使用纯 16 位网络的机会。
May, 2023
本篇研究提出了一种名为 Flexpoint 的数据格式,可以在不需要调整模型超参的情况下,用于支持深度神经网络在低位宽训练中的完整替代,该数据格式动态调整共享指数,以最小化过载并最大化可用的动态范围,实验证明,16 位 Flexpoint 在三个网络模型的训练上与 32 位浮点数非常接近,有望成为未来神经网络硬件训练和预测的一种有效数值格式。
Nov, 2017
本文提出使用浮点数表示权重和使用定点数表示激活,证明了相较于定点数表示,使用浮点数表示权重更加高效,同时能够优化硬件乘加器设计,实验表明这个方法最多可减少 36% 的权重存储和 50% 的硬件乘加器功耗。
Mar, 2017
本文介绍了一种用于选择 FP8 线性层缩放的方法,基于动态更新权重、梯度和激活值的每张张量尺度,用于训练和验证 GPT 和 Llama 2 等大型语言模型。
Sep, 2023
本研究提出了一种新的方法 (S2FP8) ,使用 8 位浮点(FP8)数来训练深度神经网络,可以在训练时实现更大的有效内存和增加计算速度,并且在 ResNet-50、Transformer 和 NCF 等模型中表现良好,无需微调损失缩放参数或使某些层在单精度中运行;同时,引入了一些可学习的 DNN 张量统计上的偏移和挤压参数,以优化 8 位张量的使用范围,从而减少量化带来的信息损失。
Jan, 2020
该研究探讨有限精度数据表示和计算对神经网络训练的影响,并通过使用随机舍入的低精度定点计算方法在 16 位宽度的数据表示下训练深度网络来减少能量消耗并获得高分类准确性。
Feb, 2015
本文提出了一种在计算之前解压缩 bfloat/posit 张量的方法,以节省带宽使用并增加缓存效率,同时展示了与未压缩数据相比,在架构参数和考虑因素下该解决方案的优势。
Sep, 2023