Mamba-PTQ: 循环大语言模型中的异常通道

Jul, 2024

Mamba-PTQ: 循环大语言模型中的异常通道

Mamba-PTQ: Outlier Channels in Recurrent Large Language Models

Alessandro Pierro, Steven Abreu

TL;DR本研究论文主要探讨了在资源有限的环境中部署大规模语言模型时，压缩序列输入、对循环层进行后训练量化，并解决激活异常问题的关键领域。

Abstract

Modern recurrent layers are emerging as a promising path toward edge deployment of foundation models, especially in the context of large language models (LLMs). Compressing the whole input sequence in a finite-di

发现论文，激发创造

Outlier Suppression+: 大型语言模型的等效最佳移位和缩放准确量化

提出一种Outlier Suppression+的框架，其中采用了channel-wise shifting技术和scaling操作用于消除transformer语言模型中的异常值，并通过实验表明该框架在8比特和6比特设置下能够在不降低性能的前提下实现近似浮点性能水平，在4比特BERT上实现了新的最优性能。

Apr, 2023

QuantEase: 基于优化的语言模型量化 -- 一种高效直观的算法

本研究采用Coordinate Descent（CD）技术，通过QuantEase分层量化框架对Large Language Models（LLMs）进行后训练量化，包括离群值感知算法，以实现近乎3位量化并提高模型性能。

Sep, 2023

重新思考通道维度，以隔离大型语言模型低比特权重量化中的异常值

大型语言模型（LLMs）在各种任务中取得了显著的成功，但在小批量推断设置下（例如移动设备），有效地为LLMs提供服务一直是一个挑战，因为其存在着大量的内存瓶颈。本文提出了一种量化方案，即基于权重的量化，但是sub-4 bit量化仍然是一个挑战，因为存在大幅度的激活异常值。为了减轻不良的异常值效应，我们首先提出了per-IC量化，这是一种简单而有效的方法，它在每个输入通道（IC）内创建量化组，而不是传统的每个输出通道（OC）。然后，我们提出了AdaDim，这是一种可以适应各种权重敏感性模式的多功能量化框架。通过对先前的方法进行改进，如Round-To-Nearest和GPTQ，我们展示了AdaDim的有效性，在基础的语言建模基准测试和指导性调优的LLMs中都取得了显著的改进效果（在MMLU上最高+4.7%，在HumanEval上最高+10%）。

Sep, 2023

QLLM：用于大型语言模型的准确高效低比特量化

通过自适应通道重组技术，QLLM提出了一种准确高效的低精度模型量化方法，实现了对大规模语言模型的低精度量化，并在LLaMA-2上相较于之前最先进的方法提高了7.89%的平均准确率。

Oct, 2023

Mamba：具有选择性状态空间的线性时间序列建模

基于Transformer架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性SSMs集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比Transformers快5倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的Mamba-3B模型在预训练和下游评估中均优于同样大小的Transformers，与其两倍大小的模型性能相当。

Dec, 2023

使用激活正则化减轻离群通道对于语言模型量化的影响

准确的量化是语言模型的关键问题之一，我们研究了激活量化中的异常通道现象，并提出了一种调节输入和输出的策略，通过量化感知训练和激活峰度正则化来实现精确的4位参数量化。与权重后训练量化相结合，我们的方法可以获得与标准精度基准相竞争的W4A4模型。

Apr, 2024

现代LLM的量化中异常值和校准集的影响逐渐减小

通过减少内存使用和提高操作速度，后训练量化（PTQ）能够增强大型语言模型（LLMs）的效率和与更多硬件的兼容性，尽管会导致一定的性能下降。然而，我们的研究发现在不同已知的开源LLMs中，校准集对于评估激活幅度和检测异常值至关重要，异常值可能扭曲量化范围并对性能产生负面影响。因此，我们建议重新评估当前量化文献的基础知识，从主要关注异常值保留转向优化推断速度，以适应现代化LLMs的特性。

May, 2024

OutlierTune: 大语言模型的高效通道量化

OutlierTune是一种针对LLMs激活的高效后训练量化方法，它通过预执行去量化和对称化两个组件，解决了大规模语言模型的激活量化准确性和硬件效率问题。

Jun, 2024

ReMamba：为 Mamba 提供有效的长序列建模

本研究针对 Mamba 模型在长上下文理解中的效率问题，提出了 ReMamba，该模型通过选择性压缩和适应技术，增强了 Mamba 对长上下文的理解能力，且额外推理成本极小。实验结果显示，ReMamba 在 LongBench 和 L-Eval 基准测试中，分别提高了 3.2 和 1.6 的表现，表现接近相同大小的变压器模型。

Aug, 2024

ReMamba：赋予Mamba有效的长序列建模能力

本研究针对Mamba模型在长上下文理解能力的不足进行了探讨，并提出了ReMamba，旨在提高其长上下文的理解能力。ReMamba通过选择性压缩和适应技术，在两阶段的再前馈过程中引入，几乎不增加额外的推理成本，实验结果表明其在LongBench和L-Eval基准上均显著优于传统基线。

Aug, 2024