GOBO: 基于量化的注意力自然语言处理模型，实现低延迟和高能效推断

May, 2020

GOBO: 基于量化的注意力自然语言处理模型，实现低延迟和高能效推断

GOBO: Quantizing Attention-Based NLP Models for Low Latency and Energy Efficient Inference

Ali Hadi Zadeh, Isak Edo, Omar Mohamed Awad, Andreas Moshovos

TL;DRGOBO 是一种模型量化技术，将当前 BERT 模型的大部分参数从 32 位浮点数压缩到 3 位，无需调整或重新训练即可同时保持其准确性，在硬件上可用于内存压缩和流量减少.

Abstract

attention-based models have demonstrated remarkable success in various natural language understanding tasks. However, efficient execution remains a challenge for these models which are memory-bound due to their massive number of parameters. We present →

attention-based models gobo model quantization memory compression hardware architecture

发现论文，激发创造

Q8BERT：量化 8 位 BERT

本文介绍了如何在 BERT 的 fine-tuning 阶段进行量化感知的训练，以将 BERT 压缩 4 倍并加速推理速度。

Oct, 2019

ZeroQuant: 大规模 Transformer 的高效和实惠的后训练量化

本研究提出了一种有效而实惠的后训练量化方法，ZeroQuant，用于压缩大型 Transformer-based 模型。ZeroQuant 采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分，能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。

Jun, 2022

I-BERT：仅限整数的 BERT 量化

本研究提出了一种新的基于整数的 Transformer 模型量化方案 I-BERT，使用轻量级整数逼近方法进行端到端的 Bert 推理，无需浮点计算，相较于全精度基准实现在准确率上相当甚至略有提高，同时在 T4 GPU 系统上进行 8 位整数推理的速度比 32 位浮点推理快 2.4-4 倍。

Jan, 2021

EdgeBERT：面向延迟感知的多任务 NLP 推理的句子级能耗优化

EdgeBERT 是一种算法硬件协同设计，提供基于熵的早期退出预测，以进行动态电压频率缩放 (DVFS)，从而实现最小能耗，同时遵循预定的目标延迟，以适应资源受限的边缘平台，在最小的计算和存储占用开销下，提供多任务自然语言处理 (NLP) 加速，相比于传统的推理方法，无限制的早期退出方法以及在 Nvidia Jetson Tegra X2 移动 GPU 上的 CUDA 适配，EdgeBERT 硬件系统在激活多任务 NLP 推理加速方面，能够生成高达 7x，2.5x 和 53x 的低能耗。

Nov, 2020

Q-BERT: 基于 Hessian 的 BERT 超低精度量化

本文通过使用 Hessian 信息对 BERT 模型进行精细调整的广泛分析，提出了一种超低精度量化 BERT 模型的新方法，并对 SST-2、MNLI、CoNLL-03 和 SQuAD 等多项下游任务进行了广泛的测试，证明我们的新方法实现了与基线相当的性能。

Sep, 2019

DQ-BART: 联合蒸馏和量化的高效序列转序列模型

本文针对预训练模型在资源受限情况下，因占用大量内存和高延迟而面临的挑战，提出联合蒸馏和量化的方法，成功实现了在生成任务的多个数据集上 16.5 倍的模型足迹压缩比，而性能相对于完整精度版本并没有明显下降，并在压缩比达到 27.7 倍的情况下提供了性能和效率的权衡分析，此方法在语言生成任务中是首次有效地利用蒸馏和量化成功压缩预训练的序列到序列模型。

Mar, 2022

BERT 自动混合精度量化搜索

本文提出了一种针对 BERT 模型的自动混合精度量化框架，可以在子组水平同时进行量化和修剪，实现了压缩模型和保持同样性能的目标，并结合 DistilBERT 等方法获得了极轻量级模型。

Dec, 2021

自然语言理解的量化感知和张量压缩 Transformer 训练

该论文提出了一种量化感知张量压缩训练方法，通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核，进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练，并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度，并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。

Jun, 2023

GPTQ: 针对生成式预训练变换器的准确后训练量化

本研究提出了 GPTQ 一种新的一次性量化方法，可以在 4 个 GPU 小时内将 GPT 模型的参数数量降至 1750 亿，每个权重只需使用 3 到 4 个比特位即可恢复几乎与未压缩基线相同的准确性，在单个 GPU 内执行 1750 亿参数模型，快于使用 FP16 格式的 GPU，且可提供 3.25 倍至 4.5 倍的推理加速度。

Oct, 2022

深度声学模型的高效表示与执行

本文提出了一种简单而高效的量化方案，将神经网络的参数分辨率从 32 位浮点值减少到 8 位整数值，从而产生了显著的内存节省和可以使用优化后的硬件指令进行整数算术操作，从而显着降低了推理成本，并通过提出的 “量化感知” 训练过程进行网络训练，发现可以恢复大部分量化引入的精度损失，并验证了该技术在一个开放式大词汇语音识别任务上的应用。

Jul, 2016