通过学习每层重要性进行混合精度神经网络量化
本研究提出了一种训练低精度神经网络的方法,Learned Step Size Quantization,该方法使用2、3或4位字长量化权重和激活函数,并能够训练3位模型达到完全精度基线准确性,在ImageNet数据集上实现了迄今为止最高的准确性。
Feb, 2019
提出了比特级稀疏量化法(BSQ),通过引入可微比特稀疏正则化,考虑量化权重的每一位作为一个独立可训练变量,实现了每组权重元素的全零位诱导以及实现动态精度降低,使得在CIFAR-10和ImageNet数据集上相对于以往方法,BSQ在各种模型体系结构上获得更高的准确性和比特削减。
Feb, 2021
采用离散约束优化问题和二阶泰勒展开,提出了解决深度神经网络中多精度量化问题的一种高效算法,并在ImageNet数据集和各种网络体系结构上得出了比现有方法更优的结果。
Oct, 2021
本文提出了一种新的随机可微量化(SDQ)方法,利用不同层和模块的优化比特宽度来自动学习混合精度量化策略,并利用熵感知的分bin正则化和知识蒸馏对网络进行训练,经过在不同硬件和数据集上广泛的评估,SDQ在较低的比特宽度下优于所有最先进的混合或单精度量化,甚至优于各种ResNet和MobileNet家族的全精度对应物,展示了我们的方法的有效性和优越性。
Jun, 2022
该论文提出了一种混合精度搜索方法,该方法通过硬件无关的可微分搜索算法和硬件感知优化算法来寻找特定硬件目标上的优化后的混合精度配置,以减少模型大小、延迟并保持统计准确性,该方法在MobileNetV1和MobileNetV2上进行了评估,在具有不同硬件特性的多核RISC-V微控制器平台上展示了与8位模型相比高达28.6%的端到端延迟降低,在没有对子字节算术支持的系统上也能实现加速,同时在代表延迟的减少二进制运算次数上,我们的方法也表现出优越性。
Jul, 2023
Mixed-Precision Quantization(MQ)模型的精度与复杂度之间实现了有竞争力的权衡。我们提出了一种自动搜索代理的框架(EMQ),通过进化算法发现与MQ最相关的代理,实现了代理的自动生成,并在ImageNet上通过广泛的实验证明了其卓越性能。
Jul, 2023
量化是一种用于创建高效深度神经网络的技术,可以通过以低于32位浮点精度的比特宽度执行计算和存储张量来减小模型大小和推理延迟,但量化可能导致舍入误差引起的数值不稳定性,降低量化模型的准确性,而MixQuant则是一种搜索算法,根据舍入误差为每个层权重找到最佳的自定义量化比特宽度。
Sep, 2023
通过轻量级的基于梯度的搜索方法和硬件感知的方式,结合稀疏化和混合精度量化的优化技术,在减小延迟和内存占用方面获得Pareto最优的准确性与成本(即延迟或内存)之间的深度神经网络。
Jul, 2024
本研究解决了深度神经网络(DNN)在资源有限的计算平台上执行时的量化鲁棒性不足的问题。提出的ARQ方法通过强化学习寻找到既准确又鲁棒的DNN量化方案,同时利用随机平滑技术指导搜索过程,保证了分类器的清洁准确性和认证鲁棒性。实验结果表明,ARQ在多个基准测试中优于传统量化技术,甚至在许多情况下与原始浮点权重的DNN性能相当,但仅需1.5%的指令集。
Oct, 2024