实用混合精度神经网络的高效比特宽度搜索
本研究提出了三种简单有效的方法来优化低精度权重和低比特位激活函数的深度卷积神经网络:第一,采用两阶段优化策略以逐步找到好的局部最小值;第二,逐步降低比特数;第三,同时训练全精度模型和低精度模型以提供指引。该方法在不降低网络性能的情况下成功地减小了深度学习训练的计算量和存储需求。
Nov, 2017
该研究探索了一种新的神经网络压缩方法,通过不同比特宽度的量化不同层并使用可微分神经架构搜索框架进行优化,成功地实现了比现有方法更高的压缩率,模型尺寸缩小21.1倍或计算量降低103.9倍
Nov, 2018
该研究旨在解决低精度网络中过滤器位宽不同敏感性也不同的问题,提出了一种新型可微分搜索架构——Efficient differentiable Mixed-Precision network Search(EdMIPS),采用该方法能够高效地寻找多种流行网络最佳位分配,且搜索速度快,学习到的混合精度网络性能显著优于其均匀位宽网络。
Apr, 2020
提出了比特级稀疏量化法(BSQ),通过引入可微比特稀疏正则化,考虑量化权重的每一位作为一个独立可训练变量,实现了每组权重元素的全零位诱导以及实现动态精度降低,使得在CIFAR-10和ImageNet数据集上相对于以往方法,BSQ在各种模型体系结构上获得更高的准确性和比特削减。
Feb, 2021
采用离散约束优化问题和二阶泰勒展开,提出了解决深度神经网络中多精度量化问题的一种高效算法,并在ImageNet数据集和各种网络体系结构上得出了比现有方法更优的结果。
Oct, 2021
该论文提出了一种混合精度搜索方法,该方法通过硬件无关的可微分搜索算法和硬件感知优化算法来寻找特定硬件目标上的优化后的混合精度配置,以减少模型大小、延迟并保持统计准确性,该方法在MobileNetV1和MobileNetV2上进行了评估,在具有不同硬件特性的多核RISC-V微控制器平台上展示了与8位模型相比高达28.6%的端到端延迟降低,在没有对子字节算术支持的系统上也能实现加速,同时在代表延迟的减少二进制运算次数上,我们的方法也表现出优越性。
Jul, 2023
提出了一种名为QBitOpt的算法,通过量化感知训练(QAT)期间更新比特宽度,将位宽分配问题转化为约束优化问题,利用快速计算的灵敏度和高效求解器,生成满足严格资源约束的高性能任务的混合精度网络。在常见的位宽约束下,在ImageNet上评价QBitOpt并证实了在固定和混合精度方法中的优越性。
Jul, 2023
量化是一种用于创建高效深度神经网络的技术,可以通过以低于32位浮点精度的比特宽度执行计算和存储张量来减小模型大小和推理延迟,但量化可能导致舍入误差引起的数值不稳定性,降低量化模型的准确性,而MixQuant则是一种搜索算法,根据舍入误差为每个层权重找到最佳的自定义量化比特宽度。
Sep, 2023