RepQ:通用量化感知训练重新参数化架构
提出了一种新型的后训练量化框架 RepQuant,通过量化推理解耦合范式,采用复杂的量化器进行量化过程,采用简化的量化器进行推理过程,同时将量化标度重新参数化,以确保准确的量化和高效的推理,并通过集成量化权重重构进一步提高性能限制,经过广泛的实验验证在不同大规模变压器变体上在视觉、语言和多模态转换任务中取得了显著的性能优势。
Feb, 2024
通过使用平均绝对误差作为评估指标,我们提出了一种新的框架 RepAPQ,它有效地保持了量化再参数化模型的准确性,并通过量化保护再参数化和跨块校准的组件实现了更好的模型性能。实验证明,我们的方法在各种模型和任务上都优于以前的方法,8 位 PTQ 的提升约为 1%,6 位 PTQ 的提升约为 2%。
Feb, 2024
神经网络在各种应用中取得了巨大的进展,但需要大量的计算和内存资源。网络量化是一种强大的技术,用于压缩神经网络,使得人工智能的部署更加高效和可扩展。最近,再参数化 emerged 作为一种有前途的技术来提高模型性能,同时减轻各种计算机视觉任务的计算负担。然而,当在重新参数化的网络上应用量化时,精度显著下降。我们确定主要挑战来自原始分支之间权重分布的大变化。为了解决这个问题,我们提出了一种粗细权重拆分(CFWS)方法来减少权重的量化误差,并开发了一种改进的 KL 指标来确定激活的优化量化尺度。据我们所知,我们的方法是第一个能够在重新参数化的网络上进行后训练量化的工作。例如,量化的 RepVGG-A1 模型仅损失了 0.3% 的准确性。
Dec, 2023
本研究提出了一个通过利用端到端深度强化学习框架 (ReLeQ) 来自动化发现量化级别的方法,该方法可以在保持准确性的同时,将 DNN 的计算和存储成本最小化。通过对多个神经网络进行实验,结果表明,这种自动化方法最大限度地保留了准确性 (=<0.3% 的损失),并使传统硬件的速度提高了 2.2 倍,同时,与 8 位运行相比,定制的 DNN 加速器的速度提高了 2.0 倍和节能。
Nov, 2018
本文介绍了一种新型模型量化方法 MRQ(Model Re-quantization),可将现有的量化模型迅速转换以满足不同的量化需求,克服了重新训练的成本和支持多种量化方案的限制。通过权重校正和舍入误差折叠等新的重量化算法,MobileNetV2 QAT 模型可在不到 0.64 的准确度损失下快速重新量化为两种不同的量化方案,已成功部署在 Echo Show 设备的 NNA 中。
Aug, 2023
使用更少的位数表示模型权重和激活,量化降低了内存使用、计算需求和延迟。我们研究了量化神经网络的泛化性质,首先通过理论模型表明了量化作为一种正则化的功能,其次通过与损失函数曲线陡峭度与泛化的相关性的研究,提出了一个近似限制量化模型泛化性的方法,通过在 CIFAR-10、CIFAR-100 和 ImageNet 数据集上对卷积和 Transformer 模型进行超过 2000 次实验进行验证。
Apr, 2024
通过在模型架构和压缩技术上进行协同设计,卷积神经网络(CNN)的轻量化设计需要努力。作为一种新颖的设计范式,结构再参数化(SR)网络如代表性的 RepVGG 使简单的 VGG-like 网络以高度准确性得到重塑,与先进且通常更复杂的网络相当。然而,SR 网络中的合并过程会引入权重的异常值,使其分布与传统网络有所不同,从而加大了量化的难度。为了解决这个问题,我们提出了一种称为 Outlier Aware Batch Normalization(OABN)的操作级改进的训练方法。此外,为了满足有限的位宽要求并保持推断准确性,我们开发了一种基于聚类的非均匀量化框架 ClusterQAT 用于量化感知训练(QAT)。集成 OABN 和 ClusterQAT 后,RepVGG 的量化性能得到了大幅提升,尤其在位宽低于 8 时。
Feb, 2024
本文提出了一种迭代的量化技术,将权重量化和完整精度权重的重新训练结合起来,以达到高压缩比和减少量化损失,同时证明该方法能够有效地利用剪枝等其他模型压缩技术,实现在 PTB 数据集上使用 1-bit 量化重量的 LSTM 模型,减少了硬件资源需求但不会降低准确性。
May, 2018
通过对权重的重新排列,利用矢量量化方式压缩多层神经网络以在低性能计算平台上运行。在图像分类、目标检测和分割等任务中,相对于现有技术水平,可以将压缩后网络的性能损失降低 40%至 70%。
Oct, 2020