深度神经网络的 8 位数字格式

Jun, 2022

8-bit Numerical Formats for Deep Neural Networks

Badreddine Noune, Philip Jones, Daniel Justus, Dominic Masters, Carlo Luschi

TL;DR该研究探讨了使用低精度浮点数表示法（例如 8 位浮点数格式）对深度学习模型进行训练和推理的影响，结果表明合适的低精度格式选择可加快训练和降低功耗，而不会降低准确性。

Abstract

Given the current trend of increasing size and complexity of machine learning architectures, it has become of critical importance to identify new approaches to improve the computational efficiency of model training. In this context, we address the advantages of floating-point over

machine learning fixed-point representation floating-point representation low-precision formats deep learning

发现论文，激发创造

使用 8 位浮点数训练深度神经网络

本文介绍了使用较低的精度来训练深度神经网络的成功实践，通过引入基于块的操作和浮点随机取整等技术，成功地实现了在 8 位浮点数下对多种深度学习模型和数据集进行了精确的训练。这些新技术为新一代硬件训练平台奠定了基础，并具有提高 2-4 倍吞吐量的潜力。

Dec, 2018

FP8 量化：指数的力量

本研究深入探究了采用浮点数格式（FP8）进行神经网络量化的性能优势，分析了尾数和指数位数选择对性能的影响，并通过大量实验证明，相对于 INT8 格式，FP8 格式具有更高的精度和更优的性能。

Aug, 2022

使用 8 位浮点数进行混合精度训练

本文介绍了一个使用 8 位浮点表示法训练深度神经网络的方法，减少计算精度和主权重复制的精度要求，并且通过强化误差传播和降低量化噪声的方法来提高模型性能。实验表明，所提出方法在多个数据集和不同工作负载下与精度基线相比不降反升。

May, 2019

纯 16 位浮点数神经网络的防御

本文描述了纯 16 位浮点神经网络的高效性以及其在性能上与混合精度和 32 位浮点模型的类似甚至更好的表现，并提供了机器学习实践者重新考虑在各种应用中使用纯 16 位网络的机会。

May, 2023

Flexpoint: 用于深度神经网络高效训练的自适应数值格式

本篇研究提出了一种名为 Flexpoint 的数据格式，可以在不需要调整模型超参的情况下，用于支持深度神经网络在低位宽训练中的完整替代，该数据格式动态调整共享指数，以最小化过载并最大化可用的动态范围，实验证明，16 位 Flexpoint 在三个网络模型的训练上与 32 位浮点数非常接近，有望成为未来神经网络硬件训练和预测的一种有效数值格式。

Nov, 2017

使用浮点数权重和固定点激活函数的深度卷积神经网络推断

本文提出使用浮点数表示权重和使用定点数表示激活，证明了相较于定点数表示，使用浮点数表示权重更加高效，同时能够优化硬件乘加器设计，实验表明这个方法最多可减少 36% 的权重存储和 50% 的硬件乘加器功耗。

Mar, 2017

使用 8 位浮点数进行大型语言模型的训练和推理

本文介绍了一种用于选择 FP8 线性层缩放的方法，基于动态更新权重、梯度和激活值的每张张量尺度，用于训练和验证 GPT 和 Llama 2 等大型语言模型。

Sep, 2023

用于深度神经网络低精度训练的平移和压缩 8 位浮点格式

本研究提出了一种新的方法 (S2FP8) ，使用 8 位浮点（FP8）数来训练深度神经网络，可以在训练时实现更大的有效内存和增加计算速度，并且在 ResNet-50、Transformer 和 NCF 等模型中表现良好，无需微调损失缩放参数或使某些层在单精度中运行；同时，引入了一些可学习的 DNN 张量统计上的偏移和挤压参数，以优化 8 位张量的使用范围，从而减少量化带来的信息损失。

Jan, 2020

有限数值精度下的深度学习

该研究探讨有限精度数据表示和计算对神经网络训练的影响，并通过使用随机舍入的低精度定点计算方法在 16 位宽度的数据表示下训练深度网络来减少能量消耗并获得高分类准确性。

Feb, 2015

用于人工智能的压缩实数：以 RISC-V CPU 为案例研究

本文提出了一种在计算之前解压缩 bfloat/posit 张量的方法，以节省带宽使用并增加缓存效率，同时展示了与未压缩数据相比，在架构参数和考虑因素下该解决方案的优势。

Sep, 2023