教师干预：提高超低精度 Transformer 量化感知训练的收敛性

ACLFeb, 2023

教师干预：提高超低精度 Transformer 量化感知训练的收敛性

Teacher Intervention: Improving Convergence of Quantization Aware Training for Ultra-Low Precision Transformers

Minsoo Kim, Kyuhong Shim, Seongmin Park, Wonyong Sung, Jungwook Choi

TL;DR本论文提出了一种名为 Teacher Intervention（TI）的主动知识蒸馏方法，用于快速收敛超低精度预训练 Transformer 的 QAT，并采用逐步干预机制来稳定恢复 Transformer 层的子节，提高模型准确性。

Abstract

pre-trained transformer models such as BERT have shown great success in a wide range of applications, but at the cost of substantial increases in model complexity. quantization-aware training (QAT) is a promising

pre-trained transformer models quantization-aware training proactive knowledge distillation ultra-low precision teacher intervention

发现论文，激发创造

自然语言理解的量化感知和张量压缩 Transformer 训练

该论文提出了一种量化感知张量压缩训练方法，通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核，进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练，并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度，并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。

Jun, 2023

关于资源受限的 FPGA 上基于时间序列 Transformer 模型的量化感知训练研究

本研究探讨在时间序列 Transformer 模型上的量化感知训练（QAT），并提出了一种新颖的自适应量化方案，在 QAT 阶段动态选择对称和非对称方案。我们的方法证明了将量化方案与实际数据分布匹配可以减少计算开销同时保持可接受的精度。此外，我们的方法在应用于真实数据和混合精度量化时具有鲁棒性，其中大部分对象被量化为 4 位。我们的发现为模型量化和部署决策提供指导，同时为进一步发展量化技术奠定基础。

Oct, 2023

注重教师：带老师更接近零 - shot 量化

本文通过分析零样本量化技术的损失面结构和性能下降数据处理方法研究，提出一种简单，有效的零样本量化技术 AIT，通过 KL 距离损失和梯度操纵来提高模型性能。

Mar, 2022

LLM 的低秩量化感知训练

大型语言模型经常遇到计算和存储需求增加的挑战，为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法，通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件，我们可以在不牺牲预测性能的情况下节省内存，该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合，有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。

Jun, 2024

无需反向传播的注意力感知后训练量化

提出了一种不依赖于反向传播的新型 PTQ 算法，通过开发具有注意力机制的 Hessian 矩阵来考虑层间依赖关系，从而显著优于传统的 PTQ 方法，特别是在低位宽情况下。

Jun, 2024

理解和改善知识蒸馏，针对大型 Transformer 编码器的量化感知训练

本文提出了两种知识蒸馏方法，即注意力映射和注意力输出损失，并探索了两者的统一，以解决注意力重构的不足。实验结果表明，这两种知识蒸馏方法可以在使用小于 2 位的量化权重时，获得具有先进性的精度。

Nov, 2022

视觉 Transformer 的后训练量化

本文介绍了一种有效的后训练量化算法，以降低视觉变换器的内存存储和计算成本，并在多个基准模型和数据集上证明了所提出的方法的有效性，在 ImageNet 数据集上使用 DeiT-B 模型可获得约 8 位量化的 81.29％ top-1 精度。

Jun, 2021

量化感知训练的转换率调度

基于量化意识训练 (QAT) 的过程中，通过控制权重 / 激活的位精度来学习量化权重，通过更新潜在权重间接学习，本文提出了一种基于过渡速率 (transition rate) 的调度技术，通过调整量化权重的过渡点数目控制量化权重的变化程度，取得了显著的效果。

Apr, 2024

视觉 Transformer 的实例感知组量化

后训练量化（PTQ）是一种高效的模型压缩技术，它使用一个小的校准样本集对预训练的全精度模型进行量化，而无需重新训练。我们提出了一种针对视觉变换器（ViTs）的实例感知分组量化技术（IGQ-ViT），它动态地将激活图的通道分割为多个组，以使每个组内的激活具有相似的统计特性。我们的方法扩展到对令牌之间的 softmax 注意力进行量化，并通过调整每个层的组数来最小化量化模型与全精度模型之间的差异，在位运算约束下取得了良好效果。我们在图像分类、目标检测和实例分割等领域进行了广泛的实验证明了我们的方法的有效性。

Apr, 2024

迈向超大规模 Transformer 的下一级后训练量化

本文提出了一种新颖的 PTQ 算法 aespa，通过逐层量化实现高效性，同时考虑跨层依赖以保留注意力分数，通过对多种语言模型的广泛实验和复杂度分析，证明了 aespa 在量化 Transformer 模型时具备准确性和高效性。

Feb, 2024