边缘推断的低精度混合计算模型
该论文提出一种基于 posit 数值格式的 DNN 体系结构及可调精度 FPGA 软核,通过实验结果表明,该体系结构在 8 位或以下的 posit 数值格式下,性能和精度均优于传统的固定位数和浮点数位数格式,提示该方法能够在减小计算资源的同时提高 DNN 的性能。
Dec, 2018
通过精度分配方法,实现神经网络中所有参数的最小化,从而实现固定点训练。针对 CIFAR-10,CIFAR-100 和 SVHN 数据集,对四个网络进行实验验证,证实此方法具有接近最优的精度分配,可以与其他固定点神经网络设计相比较。(The precision assignment methodology reduces the complexity of fixed-point training for neural networks, and its optimality is validated empirically for various datasets and network designs)
Dec, 2018
本文提出了 Cheetah 框架,支持使用超低精度的 posits 格式进行 DNN 训练和推理,同时支持混合精度和其他常用的数值格式,并在 MNIST、Fashion MNIST 和 CIFAR-10 三个数据集上进行了评估。结果表明,用 16 位 posits 进行 DNN 训练可以优于使用 16 位浮点数,并且使用 [5..8] 位 posits 进行推理可以改善性能和能耗之间的折衷。
Aug, 2019
F8Net 是一种完全由固定点 8 位乘法构成的量化框架,可以降低神经网络量化模型与完全精度模型之间的性能差距,并显著降低内存占用和能源消耗。
Feb, 2022
本文介绍了一个使用 8 位浮点表示法训练深度神经网络的方法,减少计算精度和主权重复制的精度要求,并且通过强化误差传播和降低量化噪声的方法来提高模型性能。实验表明,所提出方法在多个数据集和不同工作负载下与精度基线相比不降反升。
May, 2019
该研究探讨有限精度数据表示和计算对神经网络训练的影响,并通过使用随机舍入的低精度定点计算方法在 16 位宽度的数据表示下训练深度网络来减少能量消耗并获得高分类准确性。
Feb, 2015
该论文提出了一种混合精度搜索方法,该方法通过硬件无关的可微分搜索算法和硬件感知优化算法来寻找特定硬件目标上的优化后的混合精度配置,以减少模型大小、延迟并保持统计准确性,该方法在 MobileNetV1 和 MobileNetV2 上进行了评估,在具有不同硬件特性的多核 RISC-V 微控制器平台上展示了与 8 位模型相比高达 28.6% 的端到端延迟降低,在没有对子字节算术支持的系统上也能实现加速,同时在代表延迟的减少二进制运算次数上,我们的方法也表现出优越性。
Jul, 2023
本文提出了一种自适应分层比例缩放的位编码量化(ALS-POTQ)方法和无乘积 MAC 的方法(MF-MAC),可以消除线性层中所有 FP32 乘法和重量偏差校正和参数化比率裁剪技术来提高稳定性和提高准确性,从而获得比现有方法更高的能源效率和准确性。
Feb, 2023
本研究提出了一种基于聚类的量化方法,将预先训练好的全精度权重转换为三元权重,并将激活约束为 8 位,从而实现小于 8 位完整整数推理管道。此方法使用较小的 N 个过滤器的簇,并使用共同缩放因子来最小化量化损失,同时最大化三元操作的数量。在 ResNet-101 上使用 N=4 的簇大小,可以在替换了 85%的所有乘法运算为 8 位累加之后,实现 71.8%的 TOP-1 准确度。 使用 4 位权重的相同方法实现 76.3%,相对于全精度结果的误差不到 2%。同时,本研究还探讨了集群大小对性能和准确性的影响。 N=64 的较大集群大小可以使用三元操作替换 98%的乘法,但会显著降低准确性,需要在更低的精度下对参数进行微调和网络重新训练。为了解决这个问题,我们还使用全精度权重预初始化网络,通过 8 位激活和三元权重训练了低精度 ResNet-50,在额外的 4 个 epoch 内实现了 68.9%的 TOP-1 准确度。最终量化模型可以在完整的 8 位计算管道上运行,相对于基线全精度模型具有潜在的 16 倍性能提升。
Jan, 2017
本文提出一种基于多点量化的离线量化方法,该方法通过线性组合多个低精度数据来逼近完整的权重向量。在不使用专门的混合精度实现的情况下,该方法取得了比业界其他方法更好的精度并广泛适用于多个领域。
Feb, 2020