连续 16 位训练：加速 32 位预训练神经网络

Nov, 2023

连续 16 位训练：加速 32 位预训练神经网络

Continuous 16-bit Training: Accelerating 32-bit Pre-Trained Neural Networks

Juyoung Yun

TL;DR本研究介绍了一种新方法，通过使用 16 位精度持续训练已存在的 32 位精度的模型，从而在保证准确性的同时显著提高训练速度和资源利用效率。该方法为有限资源环境中的深度学习提供了可行的加速和优化方案。

Abstract

In the field of deep learning, the prevalence of models initially trained with 32-bit precision is a testament to its robustness and accuracy. However, the continuous evolution of these models often demands furth

deep learning 32-bit precision 16-bit precision training speed efficient deep learning

发现论文，激发创造

使用 8 位浮点数训练深度神经网络

本文介绍了使用较低的精度来训练深度神经网络的成功实践，通过引入基于块的操作和浮点随机取整等技术，成功地实现了在 8 位浮点数下对多种深度学习模型和数据集进行了精确的训练。这些新技术为新一代硬件训练平台奠定了基础，并具有提高 2-4 倍吞吐量的潜力。

Dec, 2018

使用 8 位浮点数进行混合精度训练

本文介绍了一个使用 8 位浮点表示法训练深度神经网络的方法，减少计算精度和主权重复制的精度要求，并且通过强化误差传播和降低量化噪声的方法来提高模型性能。实验表明，所提出方法在多个数据集和不同工作负载下与精度基线相比不降反升。

May, 2019

16 位浮点纯神经网络的潜在能量

通过实验与理论分析，本文研究了纯 16 位神经网络在分类任务中的性能与效率，发现其在一定情况下可以取得比 32 位神经网络更好的结果。

Jan, 2023

纯 16 位浮点数神经网络的防御

本文描述了纯 16 位浮点神经网络的高效性以及其在性能上与混合精度和 32 位浮点模型的类似甚至更好的表现，并提供了机器学习实践者重新考虑在各种应用中使用纯 16 位网络的机会。

May, 2023

有限数值精度下的深度学习

该研究探讨有限精度数据表示和计算对神经网络训练的影响，并通过使用随机舍入的低精度定点计算方法在 16 位宽度的数据表示下训练深度网络来减少能量消耗并获得高分类准确性。

Feb, 2015

使用 8 位整数训练高性能和大规模深度神经网络

本文提出了一种名为 WAGEUBN 的统一完整量化框架，可将神经网络的数据路径（包括所有数据类型 W，A，G，E，U 和 BN）中所有数据转换为低位整数以实现全面量化和在线训练，并在 ImageNet 数据集上获得了可比较的精度，展示了在大规模 DNNs 中 8 位 INT 级别的完整量化的功能性。

Sep, 2019

深度神经网络的 8 位数字格式

该研究探讨了使用低精度浮点数表示法（例如 8 位浮点数格式）对深度学习模型进行训练和推理的影响，结果表明合适的低精度格式选择可加快训练和降低功耗，而不会降低准确性。

Jun, 2022

二进制神经网络中的数据流优化

通过引入剪裁块，减少二元神经网络层的数据宽度和内部累加器大小，同时优化批标准化层的实现和 ARM 指令集的二值化卷积，提高了推理速度和准确度。

Apr, 2023

深度神经网络快速部署的量化技术

本文介绍了一种将 DNN 网络转化为限定精度以充分利用能源高效加速器的简单方法，通过识别通道级分布以减少量化引起的精度损失和最小化所需的图像采样量，在 ImageNet 分类基准测试上通过了 11 个网络的评估，并且不需要微调即可将网络量化为 8 位整数精度。

Oct, 2018

用于深度神经网络低精度训练的平移和压缩 8 位浮点格式

本研究提出了一种新的方法 (S2FP8) ，使用 8 位浮点（FP8）数来训练深度神经网络，可以在训练时实现更大的有效内存和增加计算速度，并且在 ResNet-50、Transformer 和 NCF 等模型中表现良好，无需微调损失缩放参数或使某些层在单精度中运行；同时，引入了一些可学习的 DNN 张量统计上的偏移和挤压参数，以优化 8 位张量的使用范围，从而减少量化带来的信息损失。

Jan, 2020