使用浮点数权重和固定点激活函数的深度卷积神经网络推断

Mar, 2017

使用浮点数权重和固定点激活函数的深度卷积神经网络推断

Deep Convolutional Neural Network Inference with Floating-point Weights and Fixed-point Activations

Liangzhen Lai, Naveen Suda, Vikas Chandra

TL;DR本文提出使用浮点数表示权重和使用定点数表示激活，证明了相较于定点数表示，使用浮点数表示权重更加高效，同时能够优化硬件乘加器设计，实验表明这个方法最多可减少 36% 的权重存储和 50% 的硬件乘加器功耗。

Abstract

Deep convolutional neural network (CNN) inference requires significant amount of memory and computation, which limits its deployment on embedded devices. To alleviate these problems to some extent, prior research utilize low precision →

convolutional neural network fixed-point numbers floating-point numbers hardware multiplier memory optimization

发现论文，激发创造

准确、无乘法的深度神经网络的硬件 - 软件协同设计

通过动态定点数编程，将深度神经网络（DNNs）从浮点数向量转换为 8 位定点数，从而实现低功耗和能耗，并增加分类准确性。

May, 2017

深度神经网络的 8 位数字格式

该研究探讨了使用低精度浮点数表示法（例如 8 位浮点数格式）对深度学习模型进行训练和推理的影响，结果表明合适的低精度格式选择可加快训练和降低功耗，而不会降低准确性。

Jun, 2022

深度卷积网络的量化优化：一篇白皮书

本文概述了卷积神经网络量化技术，研究发现通过对权重和激活进行逐通道和逐层量化，即使在不支持 8 位运算的情况下，将权重量化为 8 位可以将模型大小降低 4 倍，并且分类的准确率可以达到浮点型卷积神经网络的 98%。作者介绍了针对 CPU 和 DSP 的量化网络的等待时间基准测试，并观察到相比于 CPU 上的浮点运算，量化实现的速度提高了 2 倍至 3 倍。作者提出了一种通过 TensorFlow 和 TensorFlowLite 进行卷积网络量化的工具，并回顾了用于量化训练的最佳实践。作者建议，对于硬件加速和内核优化，应将逐通道量化的权重和逐层量化的激活作为首选量化方案，并提议未来处理器和硬件加速器用于优化推断时支持 4、8 和 16 位的精度。

Jun, 2018

混合精度训练

介绍了一种使用半精度浮点数训练深度神经网络的技术，通过减少内存消耗和利用未来处理器的半精度硬件单元，大幅提高模型训练的计算速度。

Oct, 2017

使用 8 位浮点数进行混合精度训练

本文介绍了一个使用 8 位浮点表示法训练深度神经网络的方法，减少计算精度和主权重复制的精度要求，并且通过强化误差传播和降低量化噪声的方法来提高模型性能。实验表明，所提出方法在多个数据集和不同工作负载下与精度基线相比不降反升。

May, 2019

使用对数数据表示的卷积神经网络

本文提出了一种新的数据表示方式，使得可以使用低至 3 位定点数对先进的卷积神经网络进行编码而几乎不损失分类性能，并使用非线性、基于 2 的对数表示法来进行权重编码、激活通信和点积计算，从而能够取得比相同精度的定点数有更高的分类精度，并消除笨重的数字乘法器，最终提出了一种端到端训练流程，使用 5 位对数表示法，最终测试精度比 5 位线性表示法更高。

Mar, 2016

使用 8 位浮点数训练深度神经网络

本文介绍了使用较低的精度来训练深度神经网络的成功实践，通过引入基于块的操作和浮点随机取整等技术，成功地实现了在 8 位浮点数下对多种深度学习模型和数据集进行了精确的训练。这些新技术为新一代硬件训练平台奠定了基础，并具有提高 2-4 倍吞吐量的潜力。

Dec, 2018

有限数值精度下的深度学习

该研究探讨有限精度数据表示和计算对神经网络训练的影响，并通过使用随机舍入的低精度定点计算方法在 16 位宽度的数据表示下训练深度网络来减少能量消耗并获得高分类准确性。

Feb, 2015

量化卷积神经网络以用于低功耗高吞吐量推理引擎

本文提出了一种量化方案，通过在参考浮点模型上校准而不是重新训练来确定量化方案参数，从而实现了基于更高效的算术进行推理，并且在量化后的结果中，终端到终端精度可与基准模型相当。

May, 2018

基于分块定点算术的卷积神经网络加速器设计中的计算误差分析

本文在不重新训练的情况下测试了几种经典的卷积神经网络 (CNN) 模型，验证了使用块浮点算法 (BFP) 在 CNN 加速器中定义字宽的效果，并探究了理论计算误差，提出了噪声信号比（NSR）的上限，为基于 BFP 的 CNN 引擎设计提供了有价值的指导。

Sep, 2017