- OutlierTune: 大语言模型的高效通道量化
OutlierTune 是一种针对 LLMs 激活的高效后训练量化方法,它通过预执行去量化和对称化两个组件,解决了大规模语言模型的激活量化准确性和硬件效率问题。
- Q-DiT:扩散变压器的准确后训练量化
Q-DiT 是一种结合了精细化量化、自动搜索策略和动态激活量化的方法,用于处理 Diffusion Transformer(DiT)模型中的权重和激活的巨大变化,以实现高效、高质量的量化和图像生成。
- 无需反向传播的注意力感知后训练量化
提出了一种不依赖于反向传播的新型 PTQ 算法,通过开发具有注意力机制的 Hessian 矩阵来考虑层间依赖关系,从而显著优于传统的 PTQ 方法,特别是在低位宽情况下。
- QTIP: 用格点化和不相关处理的量子化
QTIP 使用三叶栅编码量化与硬件高效的 “比特移位” 三叶栅结构,实现了具有最先进的量化质量和推理速度的超高维度量化。
- MGRQ: 视觉转换器训练后的混合粒度重建量化
本文通过分析深入探讨原因,并提出了 MGRQ(混合粒度重构量化)作为解决方案以解决此问题。MGRQ 引入了一种混合粒度重构方法来提高 PTQ 的性能,并通过引入 Extra-Block 全局监督和 Intra-Block 本地监督,构建了优 - SIGIR量化对增强检索生成的影响:小型 LLMs 分析
通过评估不同量化方法对不同规模的大型语言模型在长上下文环境下执行反馈增强生成任务的影响,研究发现对于表现良好的较小规模语言模型而言,量化并不会削弱其长上下文推理能力,从而证明了利用量化的较小型语言模型进行反馈增强生成是可行的。
- 2DQuant:基于低位后训练量化的图像超分辨率
2DQuant 是一种双阶段低比特后训练量化(PTQ)方法,通过研究权重和激活分布,使用分布导向边界初始化和蒸馏量化校准的方法,实现了在低比特量化下高效准确的图像超分辨率。
- MagR: 增强多量化训练的权重幅值缩减
本文介绍了一种简单的基于优化的预处理技术称为权重大小减少(MagR),用于改进后训练量化的性能。
- 现代 LLM 的量化中异常值和校准集的影响逐渐减小
通过减少内存使用和提高操作速度,后训练量化(PTQ)能够增强大型语言模型(LLMs)的效率和与更多硬件的兼容性,尽管会导致一定的性能下降。然而,我们的研究发现在不同已知的开源 LLMs 中,校准集对于评估激活幅度和检测异常值至关重要,异常值 - I-LLM:针对完全量化低位大型语言模型的高效整数推断
该研究论文通过提出一种新型的整数化后训练量化框架 (I-LLM),解决了大语言模型在部署边缘和云设备上仍需要大量浮点运算的问题。实验证明,I-LLM 在保持准确性的前提下,可以以 W4A4 进行操作,优于其他非整数量化方法。
- SpinQuant: 利用学习到的旋转进行 LMM 量化
通过优化旋转参数,针对大型语言模型(LLMs)进行后训练量化(PTQ)可显著减少内存使用、延迟和功耗,并减小其量化误差。通过将随机旋转应用于 LLMs 中的激活和权重矩阵,SpinQuant 方法优化旋转矩阵来减小量化误差,对比其他方法提升 - PTQ4DiT:扩散变压器的后训练量化
为了解决 Diffusion Transformers(DiTs)中特定的量化挑战,本文提出了一种特定的 Post-training Quantization(PTQ)方法,称为 PTQ4DiT。通过 Channel-wise Salien - SliM-LLM:面向大型语言模型的显著性驱动混合精度量化
本文提出了一种基于显著性驱动的混合精度量化方案,即 SliM-LLM,用于改进大型语言模型的精度和内存占用,并通过集成梯度量化器进一步减少困惑度。
- OAC:用于准确的训练后量化的输出自适应校准
大语言模型的压缩和量化是一项重要的研究领域,本文提出了一种输出自适应校准的方法,用于减少压缩和量化过程中的信息损失,并在极低精度量化方面取得了优于现有方法的表现。
- 整数量化尺度:加速低位宽量化 LLM 的免费午餐
我们介绍了一种新的后训练量化方案 —— 整数比例,它有效地解决了当前细粒度量化方法中的推理瓶颈问题,同时保持了类似的准确性。整数比例不需要额外的校准或微调,从而避免了额外成本。它可以与大多数细粒度量化方法直接使用,最多可使原始模型的端到端速 - 减轻 GLU-Based LLMs 中由激活峰值引起的量化误差
现代大型语言模型通过架构改进取得了最先进的性能,但仍需要昂贵的计算成本进行推理。本文研究了 GLU 变体中激活量化的挑战,揭示了过量激活量级引起的严重局部量化误差,提出了两种经验方法来隔离激活峰值,并验证了在最新的 GLU 变体的大型语言模 - AdpQ:一种无需校准自适应后训练量化方法
本研究提出了一种名为 AdpQ 的零样本自适应 PTQ 方法,通过采用自适应软阈值方法分离显著权重,实现低精度量化(如 3 位)中无需任何校准数据的最先进性能,进一步提供隐私保护优势,而且在各种 LLM 基准测试中达到与现有方法相同的准确性 - CVPRPTQ4SAM:用于分段任意物体的训练后量化
在这篇论文中,我们提出了一种针对 Segment Anything Model 的后训练量化框架,即 PTQ4SAM。我们通过分析 SAM 量化中的双峰分布特性,提出了双峰积分策略,并采用适应性颗粒度量化方法来处理 SAM 中的后 Soft - 寻找最佳量化策略的可微分搜索
通过深度神经网络的量化算法的不同量化策略搜索,我们提出了一种可微分量化策略搜索(DQSS)方法,为每个层分配最优的量化策略,并在图像分类和图像超分辨率等计算机视觉任务中验证了其有效性。
- CVPR视觉 Transformer 的实例感知组量化
后训练量化(PTQ)是一种高效的模型压缩技术,它使用一个小的校准样本集对预训练的全精度模型进行量化,而无需重新训练。我们提出了一种针对视觉变换器(ViTs)的实例感知分组量化技术(IGQ-ViT),它动态地将激活图的通道分割为多个组,以使每