QCore: 高效、设备端的量化模型持续校准 -- 扩展版本
本文介绍了一种利用分层、分参数类型的自动量化过程来设计深度神经网络模型的方法,旨在使模型能够在芯片上进行高精度、纳秒级推理和完全自动化部署。这对于 CERN 大型强子对撞机中的事件选择过程至关重要,其中资源严格限制,需要一种纳秒级的推理和降低 50 倍的资源消耗。
Jun, 2020
本文提出了一种量化方案,通过在参考浮点模型上校准而不是重新训练来确定量化方案参数,从而实现了基于更高效的算术进行推理,并且在量化后的结果中,终端到终端精度可与基准模型相当。
May, 2018
本文提出了基于 PULP 处理器的深度学习端到端持续学习硬件 / 软件平台,利用量化和潜在重播来优化内存成本,以实现采用小型设备的实践多样性更新。
Oct, 2021
本文提出了一种量化方案,通过整数运算进行推断,以提高在移动设备上的效率,并设计了一种训练程序来维护量化后的模型精度。该方案在 MobileNets 模型中展现了显著的改进,在 ImageNet 分类和 COCO 检测等任务上获得了良好的结果。
Dec, 2017
提出了一种将连续学习和二进制神经网络结合起来的解决方案,同时在设备上进行训练并保持竞争性的性能,该方法利用二进制潜在重播激活和一种新的量化方案,显著减少了梯度计算所需的位数,实验证实了模型的准确性和对内存需求的明显减少,从而扩展了深度学习在实际场景中的应用。
Jan, 2024
本论文介绍了一种将 QNN 推理操作转换为整数推理操作的流程,以及一些基于比特串处理技术的方法,以常见的按位操作有效地部署 QNN。作者展示了 QNN 在移动 CPU 上的潜力,并提供了一个比特串矩阵乘法库。
Sep, 2017
边缘计算和微控制器 (MCUs) 上的量化和对抗示例在深度边缘上的有效性进行了实证评估。量化增加了决策边界的点距离,并导致某些攻击估计的梯度爆炸或消失,同时量化能够增强或减弱噪声,导致梯度失调。尽管输入预处理防御在小扰动上效果显著,但在扰动增加时表现不佳,而基于训练的防御方法可以增加决策边界的平均点距,并且在量化后仍然有效,但我们认为基于训练的防御仍需解决量化偏移和梯度失调的问题以对抗对 QNNs 的敌对示例可迁移性。
Apr, 2024
本论文阐述了在深度神经网络方面的云端和边缘协作推断在量化方面的优势,提出了一种基于自动调谐的神经网络量化框架,利用 ImageNet 数据集进行了混合精度合作推理的有效性研究,实验结果显示,该框架可以生成合理的网络分割,并减小移动设备上的存储消耗,同时能够保持较高的准确率。
Dec, 2018
本文提出一种基于 coreset selection 的 quantization-aware adaptive coreset selection (ACS) 方法,以提高 quantization-aware training 的训练效率。该方法通过 error vector score 和 disagreement score 量化每个样本的重要性,并根据这些指标选择数据进行训练,在多个网络和数据集上获得了显著的提高。
Jun, 2023
本文提出了一种名为 ZeroQ 的新型零 - shot 量化框架,用于量化神经网络而无需访问原始数据,ZeroQ 通过优化一个与网络不同层的批量归一化统计数据相匹配的 Distilled Dataset 来实现。我们在不同的模型上进行了广泛测试,证明 ZeroQ 可以实现比 DFQ 方法更高的精度,具有极低的计算开销。
Jan, 2020