可量化的 Transformer 模型：通过助于自注意力机制头部不做多余操作消除异常值

Jun, 2023

可量化的 Transformer 模型：通过助于自注意力机制头部不做多余操作消除异常值

Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing

Yelysei Bondarenko, Markus Nagel, Tijmen Blankevoort

TL;DR研究人员提出了两种 Attention 机制的变化：Clipped softmax 和 Gated attention，它们可以帮助模型学习更小的异常值。利用这些变化，模型可以进行完整的 INT8 激活量化而无需额外的努力。

Abstract

transformer models have been widely adopted in various domains over the last years, and especially large language models have advanced the field of AI significantly. Due to their size, the capability of these networks has increased tremendously, but this has come at the cost of a signi

transformer models quantization attention mechanism clipped softmax gated attention

发现论文，激发创造

预训练中去除异常值是一餐免费午餐吗？

通过引入一个新的 softmax 函数，该方法通过处理异常值，使模型适配量化，且能成功预训练因果语言模型。

Feb, 2024

理解和克服高效 Transformer 量化的挑战

本文探讨了 Transformer 模型的量化问题，并给出了三种解决方法，其中一种基于 embedding group 的量化方法建立了新的量化模型，该方法可降低模型内存占用且保证了一定的精度。通过在 GLUE 基准测试中使用 BERT，我们准确评估了这些方法的有效性，并提出了一种新的超低比特宽度的 transformer 权重和 embedding 的量化方法，以实现更大的内存节省。

Sep, 2021

Transformer 中 Attention 值的分布、稀疏性和推断时量化

研究了 transformer 的注意机制需要多少信息在应用（推理）时真正需要，并且针对不需要训练的优化进行了系统研究，提出了基于剪枝和对数尺度映射的推理时间量化技术，发现 80％的注意值可以剪枝为零，而精度只有不到 1.0％的相对损失，使用这种剪枝技术，结合对注意值进行量化到仅 3 位格式，不需要重新训练，在细调过的 RoBERTa 下只会导致 0.8％的精度损失。

Jun, 2021

ZeroQuant: 大规模 Transformer 的高效和实惠的后训练量化

本研究提出了一种有效而实惠的后训练量化方法，ZeroQuant，用于压缩大型 Transformer-based 模型。ZeroQuant 采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分，能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。

Jun, 2022

Outlier Suppression+: 大型语言模型的等效最佳移位和缩放准确量化

提出一种 Outlier Suppression + 的框架，其中采用了 channel-wise shifting 技术和 scaling 操作用于消除 transformer 语言模型中的异常值，并通过实验表明该框架在 8 比特和 6 比特设置下能够在不降低性能的前提下实现近似浮点性能水平，在 4 比特 BERT 上实现了新的最优性能。

Apr, 2023

视觉 Transformer 的后训练量化

本文介绍了一种有效的后训练量化算法，以降低视觉变换器的内存存储和计算成本，并在多个基准模型和数据集上证明了所提出的方法的有效性，在 ImageNet 数据集上使用 DeiT-B 模型可获得约 8 位量化的 81.29％ top-1 精度。

Jun, 2021

NoisyQuant：针对视觉 Transformer 的噪声偏置增强后训练激活量化

NoisyQuant 是一种用于视觉变换器 post-training activation 量化性能增强的量化器不可知增强方法。它的理论是，在给定量化器的情况下，添加一个固定的均匀噪声偏差可以在可证明的条件下显着降低量化误差。基于这个理论，NoisyQuant 成功地通过添加增量噪声偏差来改变重尾激活分布并适应给定的量化器。大量实验展示了 NoisyQuant 在使视觉变换器进行 post-training quantization 时可以大幅度提高性能，而且计算成本较小。

Nov, 2022

QuantTune: 自适应异常值驱动的模型量化优化

我们的研究着重于发现 Transformer-based 模型在后训练线性量化过程中准确性下降的潜在原因，并提出了一种适用于量化的微调方法 QuantTune。该方法通过根据异常激活的偏差调整权重，有效控制了有问题激活的动态范围，从而在几种 Transformer-based 模型中实现了显著的后训练量化的改进。

Mar, 2024

抑制因子：ReLU 和基于加法的注意力用于高效 Transformer

通过替代点积和基于 Softmax 的注意力机制，将其替换为仅包含加法和 ReLU 激活的替代机制，以提高量化 Transformer 的计算效率，并支持在资源受限的硬件或同态加密等替代算术系统上运行更大规模的量化 Transformer 模型。

Oct, 2023

大语言模型中的权重量化激活异常值教训

本文提出了一种后训练量化方法，可以在不损失质量的情况下，在模型中针对 weight 使用较高的精度，大大降低了模型推理需要的 GPU 数量，实现了更高的经济性。

Jun, 2023