量化感知训练的转换率调度

Apr, 2024

Transition Rate Scheduling for Quantization-Aware Training

Junghyup lee, Dohyung Kim, Jeimin Jeon, Bumsub Ham

TL;DR基于量化意识训练 (QAT) 的过程中，通过控制权重 / 激活的位精度来学习量化权重，通过更新潜在权重间接学习，本文提出了一种基于过渡速率 (transition rate) 的调度技术，通过调整量化权重的过渡点数目控制量化权重的变化程度，取得了显著的效果。

Abstract

quantization-aware training (QAT) simulates a quantization process during training to lower bit-precision of weights/→

quantization-aware training bit-precision weights activations transition rate

发现论文，激发创造

LLM 的低秩量化感知训练

大型语言模型经常遇到计算和存储需求增加的挑战，为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法，通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件，我们可以在不牺牲预测性能的情况下节省内存，该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合，有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。

Jun, 2024

EdgeQAT：基于熵和分布的量化感知训练用于边缘轻量级语言模型加速

提出了一种新的轻量级语言模型优化方法 EdgeQAT，通过熵和分布引导的量化感知训练，动态量化不同位宽的令牌，从而在边缘设备上实现推理加速，并实验证明其与 FP16 模型相比在多个边缘设备上可以达到高达 2.37 倍的速度提升。

Feb, 2024

教师干预：提高超低精度 Transformer 量化感知训练的收敛性

本论文提出了一种名为 Teacher Intervention（TI）的主动知识蒸馏方法，用于快速收敛超低精度预训练 Transformer 的 QAT，并采用逐步干预机制来稳定恢复 Transformer 层的子节，提高模型准确性。

Feb, 2023

L4Q：大型语言模型的参数高效量化感知训练：基于 LoRA-wise LSQ

L4Q 是一种参数高效的量化感知训练算法，利用 LLMs 中学到的低秩适应性量化步长，实现对高精度模型的同时量化和微调，达到亚 4 位精度并保持与应用 PEFT 在量化模型上相当的训练时间。

Feb, 2024

AdaQAT：自适应比特宽度量化感知训练

本文介绍了 AdaQAT，一种基于学习的方法，用于在训练过程中自动优化深度神经网络的权重和激活信号的比特宽度，以实现更高效的推断。相比其他方法，AdaQAT 在从头开始训练和微调场景中表现良好，并在 CIFAR-10 和 ImageNet 数据集上使用 ResNet20 和 ResNet18 模型表明我们的方法与最先进的混合精度量化方法竞争力强。

Apr, 2024

关于资源受限的 FPGA 上基于时间序列 Transformer 模型的量化感知训练研究

本研究探讨在时间序列 Transformer 模型上的量化感知训练（QAT），并提出了一种新颖的自适应量化方案，在 QAT 阶段动态选择对称和非对称方案。我们的方法证明了将量化方案与实际数据分布匹配可以减少计算开销同时保持可接受的精度。此外，我们的方法在应用于真实数据和混合精度量化时具有鲁棒性，其中大部分对象被量化为 4 位。我们的发现为模型量化和部署决策提供指导，同时为进一步发展量化技术奠定基础。

Oct, 2023

LLM-QAT: 大型语言模型的无数据量化感知训练

通过提出一种数据无关的蒸馏方法，利用预训练模型生成的结果来实现对语言模型低位量化，包括权重、激活值和 KV Cache，该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。

May, 2023

一种深度神经网络低比特宽度训练的统计框架

本论文提出了一个用于分析全量化训练算法的统计框架，并探讨了梯度量化对其收敛性的影响。作者开发了两个新的梯度量化器，并展示了这些量化器相对于现有的每个张量量化器具有更小的方差。

Oct, 2020

无需反向传播的注意力感知后训练量化

提出了一种不依赖于反向传播的新型 PTQ 算法，通过开发具有注意力机制的 Hessian 矩阵来考虑层间依赖关系，从而显著优于传统的 PTQ 方法，特别是在低位宽情况下。

Jun, 2024

RAND：针对量化 Seq2seq 模型的鲁棒性感知范数衰减

本文提出了一种低复杂度的量化感知训练方法，以将 4 位序列到序列模型应用于语音识别数据集，并在模型精度方面优于常见的学习比例尺和裁剪方法。

May, 2023