SmoothQuant是一个训练免费的精度保持、通用的后训练量化解决方案,用于大型语言模型(LLMs),通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度,可以实现LLMs的8位权重和激活(W8A8)量化,同时提高硬件效率,以较小的精度损失实现高达2倍的内存减少和1.56倍的加速,是一个可降低硬件成本、民主化LLMs的一站式解决方案。
Nov, 2022
Atom是一种低位量化方法,通过使用低位算子和低位量化显著提高serving吞吐量以及减少内存消耗,同时保持相同的延迟目标。
Oct, 2023
该研究探讨了大型语言模型的后训练量化,特别是4位权重和8位激活(W4A8)量化,以提高计算效率,介绍了激活量化感知的缩放(AQAS)和序列长度感知的校准(SLAC)等创新技术,并引入了整数和非规格化表示的混合数据格式(dINT)来解决W4A8量化中的下溢问题,并通过对LLMs的严格评估证明这些技术显著提高了任务准确度,并且与完整精度模型相当,通过与dINT兼容的算术单元的开发,进一步证实了该方法相对于8位整数MAC单元可以提升2倍硬件效率。
Nov, 2023
提出了SmoothQuant+方法,它是一种准确而高效的4位权重量化方法,能够无损地减小大语言模型的内存开销,并且在精确度上没有损失。通过SmoothQuant+,Code Llama-34B模型能够在一张A100 40GB GPU上实现无损的准确度,并且相较于在两张A100 40GB GPUs上部署的FP16模型,能够提高1.9至4.0倍的吞吐量,每个token的延迟仅为FP16模型的68%。这是已知的大语言模型4位权重量化的最先进方法。
Dec, 2023
本文介绍了一种针对大型语言模型的激活引导量化框架Agile-Quant,通过模型参数和激活函数的量化实现了在边缘设备上更快的推理速度。
该研究论文通过提出一种新型的整数化后训练量化框架(I-LLM),解决了大语言模型在部署边缘和云设备上仍需要大量浮点运算的问题。实验证明,I-LLM在保持准确性的前提下,可以以W4A4进行操作,优于其他非整数量化方法。
May, 2024
通过使用较少参数和定量化等模型压缩技术,MobileAIBench评估了多尺寸、定量化水平和任务,并在真实设备上测量延迟和资源消耗,旨在提供在移动平台上部署大型语言模型和多模态模型的性能和可行性洞察,加速移动AI研究和部署。
Jun, 2024
使用全面的基准套件,我们探索了大规模语言模型在量化过程中的泛化能力以及校准数据分布对其影响,并且发布了一个模块化设计的工具包来帮助未来的研究。
本研究解决了LLaMA3-70B模型在使用8位整数权重和8位整数激活(W8A8)后训练量化时,独特的准确度下降行为这一问题。我们提出了一种混合策略,通过对少于3%的层应用精细的W8A8量化,显著提升LLaMA3-70B模型在推理任务中的表现,准确度从45.5%提高至73.4%。这一发现为大语言模型的高效部署提供了新思路。
Aug, 2024
本研究针对设备受限环境下运行大型语言模型(LLMs)面临的挑战进行了深入分析,提出了高效架构及压缩技术等创新解决方案。研究发现,通过硬件加速和边缘云协作方式,可以在性能与资源利用之间实现微妙平衡,为未来基于设备的智能计算发展提供了重要指导。重要性在于解决资源限制问题,同时实现个性化和适应性学习。