8 位神经网络加速器的小于 8 位量化感知训练，用于设备上的语音识别

Jun, 2022

8 位神经网络加速器的小于 8 位量化感知训练，用于设备上的语音识别

Sub-8-Bit Quantization Aware Training for 8-Bit Neural Network Accelerator with On-Device Speech Recognition

Kai Zhen, Hieu Duy Nguyen, Raviteja Chinta, Nathan Susanj, Athanasios Mouchtaris...

TL;DR本文提出了一种 8 位神经网络加速器的新型子 8 位量化感知训练（S8BQAT）方案，利用 Lloyd-Max 压缩理论的灵感，通过适当的实用化来降低计算开销，并应用于递归神经网络传输者 (RNN-T) 结构的语音识别任务中，进一步优化模型参数大小，相对减少误差率 4%-16%，提高计算速度 5%。

Abstract

We present a novel sub-8-bit quantization-aware training (S8BQAT) scheme for 8-bit neural network accelerators. Our method is inspired from Lloyd-Max →

quantization neural network compression speech recognition rnn-t

发现论文，激发创造

RAND：针对量化 Seq2seq 模型的鲁棒性感知范数衰减

本文提出了一种低复杂度的量化感知训练方法，以将 4 位序列到序列模型应用于语音识别数据集，并在模型精度方面优于常见的学习比例尺和裁剪方法。

May, 2023

通过端到端 4 位量化加速递归神经网络转录器的推断和语言模型融合

本研究探讨了量化技术对于循环神经网络传输器（RNN-T）推论过程的加速作用，通过量化训练（QAT）重新训练全模型，应用自定义的量化方案并使用大型 beam widths 进行假设搜索，实现了 RNN-T 的端到端量化，并取得了较好的性能以及与浮点精度相比 7.6 倍的压缩比。

Jun, 2022

自适应核心集选择的高效量化感知训练

本文提出一种基于 coreset selection 的 quantization-aware adaptive coreset selection (ACS) 方法，以提高 quantization-aware training 的训练效率。该方法通过 error vector score 和 disagreement score 量化每个样本的重要性，并根据这些指标选择数据进行训练，在多个网络和数据集上获得了显著的提高。

Jun, 2023

LLM 的低秩量化感知训练

大型语言模型经常遇到计算和存储需求增加的挑战，为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法，通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件，我们可以在不牺牲预测性能的情况下节省内存，该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合，有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。

Jun, 2024

AdaQAT：自适应比特宽度量化感知训练

本文介绍了 AdaQAT，一种基于学习的方法，用于在训练过程中自动优化深度神经网络的权重和激活信号的比特宽度，以实现更高效的推断。相比其他方法，AdaQAT 在从头开始训练和微调场景中表现良好，并在 CIFAR-10 和 ImageNet 数据集上使用 ResNet20 和 ResNet18 模型表明我们的方法与最先进的混合精度量化方法竞争力强。

Apr, 2024

一种深度神经网络低比特宽度训练的统计框架

本论文提出了一个用于分析全量化训练算法的统计框架，并探讨了梯度量化对其收敛性的影响。作者开发了两个新的梯度量化器，并展示了这些量化器相对于现有的每个张量量化器具有更小的方差。

Oct, 2020

基于转录器的语音识别加速训练

本文提出一种在训练阶段复制神经网络加速器 (NNA) 运算符以解决低精度推理引起的性能损失，以此减少用户感知的延迟，并在 270K 小时的英语数据上显示了 5-7％的引擎延迟的改善，节省了高达 10％的句子错误率的降低。

May, 2023

深度声学模型的高效表示与执行

本文提出了一种简单而高效的量化方案，将神经网络的参数分辨率从 32 位浮点值减少到 8 位整数值，从而产生了显著的内存节省和可以使用优化后的硬件指令进行整数算术操作，从而显着降低了推理成本，并通过提出的 “量化感知” 训练过程进行网络训练，发现可以恢复大部分量化引入的精度损失，并验证了该技术在一个开放式大词汇语音识别任务上的应用。

Jul, 2016

EdgeQAT：基于熵和分布的量化感知训练用于边缘轻量级语言模型加速

提出了一种新的轻量级语言模型优化方法 EdgeQAT，通过熵和分布引导的量化感知训练，动态量化不同位宽的令牌，从而在边缘设备上实现推理加速，并实验证明其与 FP16 模型相比在多个边缘设备上可以达到高达 2.37 倍的速度提升。

Feb, 2024

LLM-QAT: 大型语言模型的无数据量化感知训练

通过提出一种数据无关的蒸馏方法，利用预训练模型生成的结果来实现对语言模型低位量化，包括权重、激活值和 KV Cache，该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。

May, 2023