适用于每个用户和预算的模型：无标签和个性化的混合精度量化

Jul, 2023

适用于每个用户和预算的模型：无标签和个性化的混合精度量化

A Model for Every User and Budget: Label-Free and Personalized Mixed-Precision Quantization

Edward Fish, Umberto Michieli, Mete Ozay

TL;DR最近的自动语音识别（ASR）中取得的进展产生了大型 AI 模型，这些模型在移动设备上部署变得不切实际。模型量化可以产生压缩的通用模型，但这些模型可能只能在特定领域中部署。我们表明在量化过程中可以个性化地对 ASR 模型进行个性化调整，仅依赖于目标领域的少量未标记样本。为此，我们提出了 myQASR，一种混合精度量化方法，它可以在不需要微调的情况下为不同用户生成量化方案，以适应任何内存需求。myQASR 通过分析全精度激活值来自动评估网络层的量化灵敏度，我们能够为任何预定的内存预算生成个性化的混合精度量化方案。大规模 ASR 模型的结果表明 myQASR 如何提高特定性别、语言和说话者的性能。

Abstract

Recent advancement in automatic speech recognition (ASR) has produced large AI models, which become impractical for deployment in mobile devices. Model quantization is effective to produce compressed general-purpose models, however such models may only be deployed to a restricted sub-d

automatic speech recognition asr models model quantization myqasr personalized quantization

发现论文，激发创造

加强量化的端到端 ASR 模型通过个性化

使用 4-bit 正态浮点数量化和低秩自适应方法相结合的个性化量化模型策略，大幅降低了模型大小并显著减少了词错误率。

Sep, 2023

BERT 自动混合精度量化搜索

本文提出了一种针对 BERT 模型的自动混合精度量化框架，可以在子组水平同时进行量化和修剪，实现了压缩模型和保持同样性能的目标，并结合 DistilBERT 等方法获得了极轻量级模型。

Dec, 2021

MRQ: 通过模型重新量化支持多种量化方案

本文介绍了一种新型模型量化方法 MRQ（Model Re-quantization)，可将现有的量化模型迅速转换以满足不同的量化需求，克服了重新训练的成本和支持多种量化方案的限制。通过权重校正和舍入误差折叠等新的重量化算法，MobileNetV2 QAT 模型可在不到 0.64 的准确度损失下快速重新量化为两种不同的量化方案，已成功部署在 Echo Show 设备的 NNA 中。

Aug, 2023

零炮灰锐度感知量化预训练语言模型

我们提出了一种新颖的零射频锐化感知量化（ZSAQ）框架，用于各种预训练语言模型的零射频量化，并理论证明了 SAM-SGA 优化算法的收敛速度以及该结果适用于其他非凸型极小 - 极大优化框架。通过在 11 个任务上进行大量实验证明，我们的方法在鉴别性和生成性预训练语言模型上都带来了一致且显著的性能提升，即最高可达 + 6.98 的平均得分，并且在实践中验证了我们的方法能够有效改善模型的泛化能力。

Oct, 2023

LLM 的低秩量化感知训练

大型语言模型经常遇到计算和存储需求增加的挑战，为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法，通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件，我们可以在不牺牲预测性能的情况下节省内存，该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合，有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。

Jun, 2024

RAND：针对量化 Seq2seq 模型的鲁棒性感知范数衰减

本文提出了一种低复杂度的量化感知训练方法，以将 4 位序列到序列模型应用于语音识别数据集，并在模型精度方面优于常见的学习比例尺和裁剪方法。

May, 2023

基于硬件的混合精度量化自动机器学习

本文提出了一种基于深度强化学习的硬件感知自动量化框架 (HAQ)，旨在为不同的神经网络体系结构和硬件体系结构确定最佳的量化策略，以提高计算效率并在保持准确性的前提下减少延迟和能耗。在硬件仿真器的帮助下，该框架的有效性已得到证明。

Aug, 2020

基于混合强化学习的数据质量感知混合精度量化

本研究提出了一种名为 DQMQ 的新型混合精度量化框架，可动态地适应不同数据质量，通过学习一个决策规则，它被建模为一种混合强化学习任务，该任务结合了基于模型的策略优化和监督量化训练。通过在混合质量的图像数据集上进行训练，DQMQ 可以在面对不均匀输入质量时隐式地选择每个层的最适宜比特宽度，在各种基准数据集和网络上的大量实验表明，DQMQ 比现有的固定 / 混合精度量化方法更为优越。

Feb, 2023

一种简化了的全量化 Transformer 用于端到端语音识别

本研究通过探究去除特定模块的影响以及减少神经网络的数字精度的方法，成功地简化和压缩了基于 Transformer 编码器 - 解码器的端到端语音识别架构，实验结果表明，我们能够通过将数字精度减少到 8 位定点精度，将全精度模型的参数数量减小并将模型进一步压缩 4 倍，同时维持模型高精度。

Nov, 2019

APTQ：针对大型语言模型的注意力感知后训练混合精度量化

通过引入 APTQ（关注感知的后训练混合精度量化），该研究提出了一种在大规模语言模型上进行混合精度量化的方法，利用 Hessian 迹作为灵敏度指标，以实现在模型性能保持的前提下进行精度降低，并取得了优于以往量化方法的效果。

Feb, 2024