边缘推断的低精度混合计算模型

Dec, 2023

Low-Precision Mixed-Computation Models for Inference on Edge

Seyedarmin Azizi, Mahdi Nazemi, Mehdi Kamal, Massoud Pedram

TL;DR该研究论文提出了一种混合计算神经网络处理方法，通过低精度的 Posit 和低精度定点 FixP 数值系统，为边缘应用提供支持，并利用启发式方法分析权重的重要性和量化误差，为不同权重分配正确的数值系统。通过在视觉和语言模型上的广泛评估，结果显示混合计算的准确性平均比 FixP 高约 1.5%，只需 0.19% 的能量开销。

Abstract

This paper presents a mixed-computation neural network processing approach for edge applications that incorporates low-precision (low-width) posit and low-precision fixed point (→

neural network processing low-precision number systems posit fixp mixed-computation approach

发现论文，激发创造

深度正子：使用正电子数系统的深度神经网络

该论文提出一种基于 posit 数值格式的 DNN 体系结构及可调精度 FPGA 软核，通过实验结果表明，该体系结构在 8 位或以下的 posit 数值格式下，性能和精度均优于传统的固定位数和浮点数位数格式，提示该方法能够在减小计算资源的同时提高 DNN 的性能。

Dec, 2018

反向传播算法的逐张量定点量化

通过精度分配方法，实现神经网络中所有参数的最小化，从而实现固定点训练。针对 CIFAR-10，CIFAR-100 和 SVHN 数据集，对四个网络进行实验验证，证实此方法具有接近最优的精度分配，可以与其他固定点神经网络设计相比较。（The precision assignment methodology reduces the complexity of fixed-point training for neural networks, and its optimality is validated empirically for various datasets and network designs）

Dec, 2018

Cheetah：边缘 DNN 的混合低精度硬件和软件协同设计框架

本文提出了 Cheetah 框架，支持使用超低精度的 posits 格式进行 DNN 训练和推理，同时支持混合精度和其他常用的数值格式，并在 MNIST、Fashion MNIST 和 CIFAR-10 三个数据集上进行了评估。结果表明，用 16 位 posits 进行 DNN 训练可以优于使用 16 位浮点数，并且使用 [5..8] 位 posits 进行推理可以改善性能和能耗之间的折衷。

Aug, 2019

F8Net: 仅限定点 8 位乘法用于网络量化

F8Net 是一种完全由固定点 8 位乘法构成的量化框架，可以降低神经网络量化模型与完全精度模型之间的性能差距，并显著降低内存占用和能源消耗。

Feb, 2022

使用 8 位浮点数进行混合精度训练

本文介绍了一个使用 8 位浮点表示法训练深度神经网络的方法，减少计算精度和主权重复制的精度要求，并且通过强化误差传播和降低量化噪声的方法来提高模型性能。实验表明，所提出方法在多个数据集和不同工作负载下与精度基线相比不降反升。

May, 2019

有限数值精度下的深度学习

该研究探讨有限精度数据表示和计算对神经网络训练的影响，并通过使用随机舍入的低精度定点计算方法在 16 位宽度的数据表示下训练深度网络来减少能量消耗并获得高分类准确性。

Feb, 2015

自由比特：边缘上混合精度量化神经网络的延迟优化

该论文提出了一种混合精度搜索方法，该方法通过硬件无关的可微分搜索算法和硬件感知优化算法来寻找特定硬件目标上的优化后的混合精度配置，以减少模型大小、延迟并保持统计准确性，该方法在 MobileNetV1 和 MobileNetV2 上进行了评估，在具有不同硬件特性的多核 RISC-V 微控制器平台上展示了与 8 位模型相比高达 28.6% 的端到端延迟降低，在没有对子字节算术支持的系统上也能实现加速，同时在代表延迟的减少二进制运算次数上，我们的方法也表现出优越性。

Jul, 2023

深度神经网络的超低精度无乘训练

本文提出了一种自适应分层比例缩放的位编码量化（ALS-POTQ）方法和无乘积 MAC 的方法（MF-MAC），可以消除线性层中所有 FP32 乘法和重量偏差校正和参数化比率裁剪技术来提高稳定性和提高准确性，从而获得比现有方法更高的能源效率和准确性。

Feb, 2023

使用动态定点实现混合低精度深度学习推理

本研究提出了一种基于聚类的量化方法，将预先训练好的全精度权重转换为三元权重，并将激活约束为 8 位，从而实现小于 8 位完整整数推理管道。此方法使用较小的 N 个过滤器的簇，并使用共同缩放因子来最小化量化损失，同时最大化三元操作的数量。在 ResNet-101 上使用 N=4 的簇大小，可以在替换了 85％的所有乘法运算为 8 位累加之后，实现 71.8％的 TOP-1 准确度。使用 4 位权重的相同方法实现 76.3％，相对于全精度结果的误差不到 2％。同时，本研究还探讨了集群大小对性能和准确性的影响。 N=64 的较大集群大小可以使用三元操作替换 98％的乘法，但会显著降低准确性，需要在更低的精度下对参数进行微调和网络重新训练。为了解决这个问题，我们还使用全精度权重预初始化网络，通过 8 位激活和三元权重训练了低精度 ResNet-50，在额外的 4 个 epoch 内实现了 68.9％的 TOP-1 准确度。最终量化模型可以在完整的 8 位计算管道上运行，相对于基线全精度模型具有潜在的 16 倍性能提升。

Jan, 2017

多点后训练量化：混合精度的实现而无需混合精度

本文提出一种基于多点量化的离线量化方法，该方法通过线性组合多个低精度数据来逼近完整的权重向量。在不使用专门的混合精度实现的情况下，该方法取得了比业界其他方法更好的精度并广泛适用于多个领域。

Feb, 2020