- MGRQ: 视觉转换器训练后的混合粒度重建量化
本文通过分析深入探讨原因,并提出了 MGRQ(混合粒度重构量化)作为解决方案以解决此问题。MGRQ 引入了一种混合粒度重构方法来提高 PTQ 的性能,并通过引入 Extra-Block 全局监督和 Intra-Block 本地监督,构建了优 - TernaryLLM:三值化大型语言模型
应用三值化和离群值友好特征知识蒸馏,我们提出了可学习的双向三值化方法,该方法在大型语言模型上表现优异,超越了其他低位量化方法,并在 C4 数据集上降低了困惑度,并在零样本任务的平均准确率上提高了 8.2%。
- 2DQuant:基于低位后训练量化的图像超分辨率
2DQuant 是一种双阶段低比特后训练量化(PTQ)方法,通过研究权重和激活分布,使用分布导向边界初始化和蒸馏量化校准的方法,实现了在低比特量化下高效准确的图像超分辨率。
- 低位量化的 LLaMA3 模型效果如何?实证研究
LLaMA3 在低位量化方面存在明显的性能下降问题,需要在未来的发展中弥合低位宽度下的性能差距,此经验研究对于推进未来模型的发展非常有价值。
- FlattenQuant: 通过 Per-tensor 量化来突破大型语言模型的推断计算限制
使用 FlattenQuant 方法在大型语言模型中实现低比特量化,通过将张量中的大通道展平以显著减少张量的最大值,本方法能够直接使用 4 位来实现 LLMs 中线性层计算的 48.29%,并使用 8 位来处理其余层,从而实现高达 2 倍的 - CBQ:大型语言模型的跨块量化
基于交叉块重建的后训练量化方法 (CBQ) 通过优化量化参数和降低重构困难来提高大规模语言模型的效率和性能。
- StableQ:利用文本到图像数据增强数据稀缺量化
通过使用高级的文本到图像扩散模型生成高分辨率、逼真的合成数据,StableQ 方法在零样本和少样本量化方面取得了准确性和效率上的显著改进,通过逆向可学习的令牌嵌入来引导合成数据生成过程,解决了数据稀缺量化的挑战。
- PB-LLM:部分二元化大型语言模型
本文研究了网络二值化技术在大型语言模型(LLMs)压缩中的应用。通过提出一种新的方法,即部分二值化 LLMs(PB-LLM),我们能够在保持低位量化的同时保持 LLMs 的语言推理能力。我们通过后训练量化(PTQ)和量化感知训练(QAT)的 - Q-YOLO:实时目标检测的高效推理
本研究描述了一种低位量化方法来构建一个高效的单级检测器,称为 Q-YOLO,有利于在资源受限的边缘设备上部署目标检测模型,从而实现减少计算和内存开销的实时检测。
- LLM-QAT: 大型语言模型的无数据量化感知训练
通过提出一种数据无关的蒸馏方法,利用预训练模型生成的结果来实现对语言模型低位量化,包括权重、激活值和 KV Cache,该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
- 整数还是浮点数?大语言模型低比特量化的新展望
本研究比较研究了 INT 和 FP 低位量化在 LLMs 中的优劣,发现由于张量分布的复杂性和异质性,最优量化格式因层而异,提出了 MoFQ,这种简单易行的方法在各种任务中取得了最新的最佳结果,并且在不引入硬件开销的情况下具有显著的性能改进 - QuaLA-MiniLM:一种量化长度自适应 MiniLM 模型
使用 Length Adaptive Transformer 和 MiniLM distillation 加上低位量化技术,我们设计出一个高效的模型 QuaLA-MiniLM,在 SQuAD1.1 数据集上达到 x8.8 个速度提升且不到 - 语言任务后训练量化方法的实证评估
通过分别实验评估了三种量化方法(LQ,ACIQ 和 OCS)对 BERT-Base 和 BERT-Large, 研究表明 OCS 可以将 BERT-Base 和 BERT-Large 量化为 3 位,并在 GLUE 基准测试中保持 98%和 - CTMQ:具有多量化步骤的卷积神经网络循环训练
本文提出了一种通过多次循环训练来实现强化低位量化卷积神经网络性能的训练方法,该方法通过使用多个量化步骤,软性地将预训练模型的知识传递给低位量化模型,并采用循环训练来提高模型的准确性,使得该方法能够在 ImageNet 数据集上提高 ResN - ICCVSub-bit 神经网络:学习压缩和加速二进制神经网络
介绍了一种基于子位二值化的神经网络设计,通过针对二值卷积核子集训练,使用随机采样和优化步骤来调整这些子集,从而压缩和加速二值神经网络的模型。实验证明,该方法在图像识别基准和 FPGA 硬件部署上具有巨大潜力,可以在适度降低识别准确度的情况下 - AdderNet 及其极简硬件设计用于能效人工智能
使用加法核、低比特量化算法以及特定和通用硬件加速器设计一种高效的、性能更好的卷积神经网络(AdderNet),可以消耗更少的资源,并且比传统的卷积神经网络、基于忆阻器网络、XNOR-Net 和基于移位核的网络有更高的性能和能效,可以用于未来 - CVPRLSQ+: 通过可学习 offset 和更优的初始化改进低比特量化
通过引入可训练的缩放和偏移参数的通用不对称量化方案,以学习如何适应负激活,LSQ + 提出了一种自然的 LSQ 扩展。结果显示,LSQ + 对于 EfficientNet 和 MixNet 表现出最先进的结果,并且在低位量化神经网络时(如: - CVPR量化网络
该论文提出了一种将低位量化作为可微非线性函数的新方法,并通过该方法实现了神经网络的低位量化,并取得了比现有方法更好的效果。