RAND:针对量化Seq2seq模型的鲁棒性感知范数衰减
本文针对在给定模型大小时最大化其准确性的紧凑模型生成问题,将讨论延伸量化感知训练的方法, 实现了仅在每个前向传递过程中量化不同的一组随机权重,从而利用SE残差正向时间传递的无偏梯度实现极端压缩的目的,并在自然语言处理和图像分类领域分别取得了新的准确性与模型大小之间的最优折中表现。
Apr, 2020
本文提出了一种8位神经网络加速器的新型子8位量化感知训练(S8BQAT)方案,利用Lloyd-Max压缩理论的灵感,通过适当的实用化来降低计算开销,并应用于递归神经网络传输者(RNN-T)结构的语音识别任务中,进一步优化模型参数大小,相对减少误差率4%-16%,提高计算速度5%。
Jun, 2022
我们对语音表示学习模型应用最近的量化技术,并在 SUPERB 基准测试上进行评估。与 DistillHuBERT 相比,在 ASR 任务上,2比特配置的存储更小,字错率更低,估计的运行时间更高效。
Dec, 2022
本研究采用Coordinate Descent(CD)技术,通过QuantEase分层量化框架对Large Language Models(LLMs)进行后训练量化,包括离群值感知算法,以实现近乎3位量化并提高模型性能。
Sep, 2023
在本文中,我们介绍了一种称为norm tweaking的技术,可以作为当前PTQ方法的插件使用,以实现高精度并且具有成本效益的模型压缩。通过校准数据生成和通道级距离约束来更新归一化层的权重,我们的方法在权重量化和权重与激活联合量化方面取得了显著的改进,在2位量化情况下甚至达到与浮点数模型相同的精度水平。我们的简单有效的方法使其在实际应用中更加实用。
Sep, 2023
该论文介绍了一种新颖的方法——Consistency Regularization(CR),通过将邻近数据分布信息注入到Quantization-Aware Training(QAT)中,有效提高了QAT的泛化性能,实验证明该方法显著优于当前最先进的QAT方法和Full Precision(FP)对照组。
Feb, 2024
通过解耦Q,我们提出了一种量化方法,将模型参数分解为整数部分和浮点部分,使得量化问题转化为约束条件下的数学优化问题,并通过现成的优化方法解决。该方法在线上实现了接近fp16/bf16准确度的2位量化大型语音模型,在硬件上更友好且能够应用于高位量化以增强其鲁棒性。
Apr, 2024
大型语言模型经常遇到计算和存储需求增加的挑战,为此我们提出了一种名为LR-QAT的轻量级、存储高效的量化感知训练算法,通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件,我们可以在不牺牲预测性能的情况下节省内存,该方法可应用于多种量化设置并与多种PTQ技术无缝结合,有效提升模型性能并在内存使用上达到与全模型QAT相当的水平。
Jun, 2024
本论文系统性地概述了大规模神经网络模型量化的原则、挑战和方法,指出了模型规模增长所带来的计算成本和能源开销问题。通过深入探讨量化技术,包括后训练量化(PTQ)和量化感知训练(QAT),论文展示了如何在不显著影响精度的情况下,降低模型规模并提高效率,为可持续和可获取的大规模模型部署提供了重要影响。
Sep, 2024