本文介绍了使用较低的精度来训练深度神经网络的成功实践,通过引入基于块的操作和浮点随机取整等技术,成功地实现了在 8 位浮点数下对多种深度学习模型和数据集进行了精确的训练。这些新技术为新一代硬件训练平台奠定了基础,并具有提高 2-4 倍吞吐量的潜力。
Dec, 2018
本文介绍了一个使用 8 位浮点表示法训练深度神经网络的方法,减少计算精度和主权重复制的精度要求,并且通过强化误差传播和降低量化噪声的方法来提高模型性能。实验表明,所提出方法在多个数据集和不同工作负载下与精度基线相比不降反升。
May, 2019
通过实验与理论分析,本文研究了纯 16 位神经网络在分类任务中的性能与效率,发现其在一定情况下可以取得比 32 位神经网络更好的结果。
Jan, 2023
本文描述了纯 16 位浮点神经网络的高效性以及其在性能上与混合精度和 32 位浮点模型的类似甚至更好的表现,并提供了机器学习实践者重新考虑在各种应用中使用纯 16 位网络的机会。
May, 2023
该研究探讨有限精度数据表示和计算对神经网络训练的影响,并通过使用随机舍入的低精度定点计算方法在 16 位宽度的数据表示下训练深度网络来减少能量消耗并获得高分类准确性。
Feb, 2015
本文提出了一种名为 WAGEUBN 的统一完整量化框架,可将神经网络的数据路径(包括所有数据类型 W,A,G,E,U 和 BN)中所有数据转换为低位整数以实现全面量化和在线训练,并在 ImageNet 数据集上获得了可比较的精度,展示了在大规模 DNNs 中 8 位 INT 级别的完整量化的功能性。
Sep, 2019
该研究探讨了使用低精度浮点数表示法(例如 8 位浮点数格式)对深度学习模型进行训练和推理的影响,结果表明合适的低精度格式选择可加快训练和降低功耗,而不会降低准确性。
Jun, 2022
通过引入剪裁块,减少二元神经网络层的数据宽度和内部累加器大小,同时优化批标准化层的实现和 ARM 指令集的二值化卷积,提高了推理速度和准确度。
Apr, 2023
本文介绍了一种将 DNN 网络转化为限定精度以充分利用能源高效加速器的简单方法,通过识别通道级分布以减少量化引起的精度损失和最小化所需的图像采样量,在 ImageNet 分类基准测试上通过了 11 个网络的评估,并且不需要微调即可将网络量化为 8 位整数精度。
Oct, 2018
本研究提出了一种新的方法 (S2FP8) ,使用 8 位浮点(FP8)数来训练深度神经网络,可以在训练时实现更大的有效内存和增加计算速度,并且在 ResNet-50、Transformer 和 NCF 等模型中表现良好,无需微调损失缩放参数或使某些层在单精度中运行;同时,引入了一些可学习的 DNN 张量统计上的偏移和挤压参数,以优化 8 位张量的使用范围,从而减少量化带来的信息损失。
Jan, 2020