RAND：针对量化Seq2seq模型的鲁棒性感知范数衰减

May, 2023

RAND：针对量化Seq2seq模型的鲁棒性感知范数衰减

RAND: Robustness Aware Norm Decay For Quantized Seq2seq Models

David Qiu, David Rim, Shaojin Ding, Oleg Rybakov, Yanzhang He

TL;DR本文提出了一种低复杂度的量化感知训练方法，以将4位序列到序列模型应用于语音识别数据集，并在模型精度方面优于常见的学习比例尺和裁剪方法。

Abstract

With the rapid increase in the size of neural networks, model compression has become an important area of research. quantization is an effective technique at decreasing the model size, memory access, and compute

发现论文，激发创造

利用量化噪音进行极限模型压缩的训练

本文针对在给定模型大小时最大化其准确性的紧凑模型生成问题，将讨论延伸量化感知训练的方法, 实现了仅在每个前向传递过程中量化不同的一组随机权重，从而利用SE残差正向时间传递的无偏梯度实现极端压缩的目的，并在自然语言处理和图像分类领域分别取得了新的准确性与模型大小之间的最优折中表现。

Apr, 2020

8位神经网络加速器的小于8位量化感知训练，用于设备上的语音识别

本文提出了一种8位神经网络加速器的新型子8位量化感知训练（S8BQAT）方案，利用Lloyd-Max压缩理论的灵感，通过适当的实用化来降低计算开销，并应用于递归神经网络传输者(RNN-T)结构的语音识别任务中，进一步优化模型参数大小，相对减少误差率4%-16%，提高计算速度5%。

Jun, 2022

使用低比特量化来实现高效语音表示学习

我们对语音表示学习模型应用最近的量化技术，并在 SUPERB 基准测试上进行评估。与 DistillHuBERT 相比，在 ASR 任务上，2比特配置的存储更小，字错率更低，估计的运行时间更高效。

Dec, 2022

QuantEase: 基于优化的语言模型量化 -- 一种高效直观的算法

本研究采用Coordinate Descent（CD）技术，通过QuantEase分层量化框架对Large Language Models（LLMs）进行后训练量化，包括离群值感知算法，以实现近乎3位量化并提高模型性能。

Sep, 2023

规范微调：大型语言模型的高性能低位量化

在本文中，我们介绍了一种称为norm tweaking的技术，可以作为当前PTQ方法的插件使用，以实现高精度并且具有成本效益的模型压缩。通过校准数据生成和通道级距离约束来更新归一化层的权重，我们的方法在权重量化和权重与激活联合量化方面取得了显著的改进，在2位量化情况下甚至达到与浮点数模型相同的精度水平。我们的简单有效的方法使其在实际应用中更加实用。

Sep, 2023

通过一致性规则将量化感知训练推向全精度性能

该论文介绍了一种新颖的方法——Consistency Regularization（CR），通过将邻近数据分布信息注入到Quantization-Aware Training（QAT）中，有效提高了QAT的泛化性能，实验证明该方法显著优于当前最先进的QAT方法和Full Precision（FP）对照组。

Feb, 2024

decoupleQ：通过将参数拆分为整数和浮点数实现2-bit后训练统一量化

通过解耦Q，我们提出了一种量化方法，将模型参数分解为整数部分和浮点部分，使得量化问题转化为约束条件下的数学优化问题，并通过现成的优化方法解决。该方法在线上实现了接近fp16/bf16准确度的2位量化大型语音模型，在硬件上更友好且能够应用于高位量化以增强其鲁棒性。

Apr, 2024

LLM的低秩量化感知训练

大型语言模型经常遇到计算和存储需求增加的挑战，为此我们提出了一种名为LR-QAT的轻量级、存储高效的量化感知训练算法，通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件，我们可以在不牺牲预测性能的情况下节省内存，该方法可应用于多种量化设置并与多种PTQ技术无缝结合，有效提升模型性能并在内存使用上达到与全模型QAT相当的水平。

Jun, 2024

EfficientQAT: 大型语言模型的高效量化感知训练

使用EfficientQAT，一种新的量化技术，可以通过压缩大型语言模型来减少内存需求，同时保持较低的精度损失。

Jul, 2024

大规模模型量化的艺术与科学：全面概述

本论文系统性地概述了大规模神经网络模型量化的原则、挑战和方法，指出了模型规模增长所带来的计算成本和能源开销问题。通过深入探讨量化技术，包括后训练量化（PTQ）和量化感知训练（QAT），论文展示了如何在不显著影响精度的情况下，降低模型规模并提高效率，为可持续和可获取的大规模模型部署提供了重要影响。

Sep, 2024