移动量化：适用于设备语言模型的移动友好量化

Aug, 2024

移动量化：适用于设备语言模型的移动友好量化

MobileQuant: Mobile-friendly Quantization for On-device Language Models

Fuwen Tan, Royson Lee, Łukasz Dudziak, Shell Xu Hu, Sourav Bhattacharya...

TL;DR本研究解决了在边缘设备上部署大型语言模型（LLMs）时面临的内存、能量和计算成本的挑战。通过提出一种名为MobileQuant的简单后训练量化方法，本研究首次通过仅使用整数量化来优化激活范围及权重转换，显著降低延迟和能耗，提升了量化的精确度，对移动设备友好，具有重要的应用潜力。

Abstract

Large Language Models (LLMs) have revolutionized language processing, delivering outstanding results across multiple applications. However, deploying LLMs on Edge Devices poses several challenges with respect to

发现论文，激发创造

SmoothQuant：大型语言模型后训练量化的准确高效算法

SmoothQuant是一个训练免费的精度保持、通用的后训练量化解决方案，用于大型语言模型（LLMs），通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度，可以实现LLMs的8位权重和激活（W8A8）量化，同时提高硬件效率，以较小的精度损失实现高达2倍的内存减少和1.56倍的加速，是一个可降低硬件成本、民主化LLMs的一站式解决方案。

Nov, 2022

Atom：高效准确的LLM服务器的低比特量化

Atom是一种低位量化方法，通过使用低位算子和低位量化显著提高serving吞吐量以及减少内存消耗，同时保持相同的延迟目标。

Oct, 2023

通过权重和激活量化提升大型语言模型的计算效率

该研究探讨了大型语言模型的后训练量化，特别是4位权重和8位激活（W4A8）量化，以提高计算效率，介绍了激活量化感知的缩放（AQAS）和序列长度感知的校准（SLAC）等创新技术，并引入了整数和非规格化表示的混合数据格式（dINT）来解决W4A8量化中的下溢问题，并通过对LLMs的严格评估证明这些技术显著提高了任务准确度，并且与完整精度模型相当，通过与dINT兼容的算术单元的开发，进一步证实了该方法相对于8位整数MAC单元可以提升2倍硬件效率。

Nov, 2023

SmoothQuant+: 精确高效的LLM后训练4位权重量化

提出了SmoothQuant+方法，它是一种准确而高效的4位权重量化方法，能够无损地减小大语言模型的内存开销，并且在精确度上没有损失。通过SmoothQuant+，Code Llama-34B模型能够在一张A100 40GB GPU上实现无损的准确度，并且相较于在两张A100 40GB GPUs上部署的FP16模型，能够提高1.9至4.0倍的吞吐量，每个token的延迟仅为FP16模型的68%。这是已知的大语言模型4位权重量化的最先进方法。

Dec, 2023

敏捷量化：边缘端低延迟的LLM快速推理的激活引导量化

本文介绍了一种针对大型语言模型的激活引导量化框架Agile-Quant，通过模型参数和激活函数的量化实现了在边缘设备上更快的推理速度。

Dec, 2023

I-LLM：针对完全量化低位大型语言模型的高效整数推断

该研究论文通过提出一种新型的整数化后训练量化框架(I-LLM)，解决了大语言模型在部署边缘和云设备上仍需要大量浮点运算的问题。实验证明，I-LLM在保持准确性的前提下，可以以W4A4进行操作，优于其他非整数量化方法。

May, 2024

MobileAIBench: 用于设备上应用场景的LLM和LMM基准测试

通过使用较少参数和定量化等模型压缩技术，MobileAIBench评估了多尺寸、定量化水平和任务，并在真实设备上测量延迟和资源消耗，旨在提供在移动平台上部署大型语言模型和多模态模型的性能和可行性洞察，加速移动AI研究和部署。

Jun, 2024

量化语言模型的泛化能力评估：基准、分析与工具箱

使用全面的基准套件，我们探索了大规模语言模型在量化过程中的泛化能力以及校准数据分布对其影响，并且发布了一个模块化设计的工具包来帮助未来的研究。

Jun, 2024

LLaMA3-70B的独特性与每通道量化：一项实证研究

本研究解决了LLaMA3-70B模型在使用8位整数权重和8位整数激活（W8A8）后训练量化时，独特的准确度下降行为这一问题。我们提出了一种混合策略，通过对少于3%的层应用精细的W8A8量化，显著提升LLaMA3-70B模型在推理任务中的表现，准确度从45.5%提高至73.4%。这一发现为大语言模型的高效部署提供了新思路。

Aug, 2024

基于设备的语言模型：全面评述

本研究针对设备受限环境下运行大型语言模型（LLMs）面临的挑战进行了深入分析，提出了高效架构及压缩技术等创新解决方案。研究发现，通过硬件加速和边缘云协作方式，可以在性能与资源利用之间实现微妙平衡，为未来基于设备的智能计算发展提供了重要指导。重要性在于解决资源限制问题，同时实现个性化和适应性学习。

Aug, 2024