Mamba-PTQ: 循环大语言模型中的异常通道
提出一种Outlier Suppression+的框架,其中采用了channel-wise shifting技术和scaling操作用于消除transformer语言模型中的异常值,并通过实验表明该框架在8比特和6比特设置下能够在不降低性能的前提下实现近似浮点性能水平,在4比特BERT上实现了新的最优性能。
Apr, 2023
本研究采用Coordinate Descent(CD)技术,通过QuantEase分层量化框架对Large Language Models(LLMs)进行后训练量化,包括离群值感知算法,以实现近乎3位量化并提高模型性能。
Sep, 2023
大型语言模型(LLMs)在各种任务中取得了显著的成功,但在小批量推断设置下(例如移动设备),有效地为LLMs提供服务一直是一个挑战,因为其存在着大量的内存瓶颈。本文提出了一种量化方案,即基于权重的量化,但是sub-4 bit量化仍然是一个挑战,因为存在大幅度的激活异常值。为了减轻不良的异常值效应,我们首先提出了per-IC量化,这是一种简单而有效的方法,它在每个输入通道(IC)内创建量化组,而不是传统的每个输出通道(OC)。然后,我们提出了AdaDim,这是一种可以适应各种权重敏感性模式的多功能量化框架。通过对先前的方法进行改进,如Round-To-Nearest和GPTQ,我们展示了AdaDim的有效性,在基础的语言建模基准测试和指导性调优的LLMs中都取得了显著的改进效果(在MMLU上最高+4.7%,在HumanEval上最高+10%)。
Sep, 2023
通过自适应通道重组技术,QLLM提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在LLaMA-2上相较于之前最先进的方法提高了7.89%的平均准确率。
Oct, 2023
基于Transformer架构的基础模型凭借其核心注意力模块,驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理,并对此进行了改进,通过让结构状态空间模型(SSMs)参数成为输入的函数来解决离散模态的弱点,该模型在长度可选的维度上选择性地传播或遗忘信息,并且通过在递归模式下设计一种硬件感知并行算法,将这些选择性SSMs集成到简化的端到端神经网络架构中。该模型(Mamba)具有快速推断速度(比Transformers快5倍)和序列长度的线性扩展,并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持,Mamba在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中,我们的Mamba-3B模型在预训练和下游评估中均优于同样大小的Transformers,与其两倍大小的模型性能相当。
Dec, 2023
准确的量化是语言模型的关键问题之一,我们研究了激活量化中的异常通道现象,并提出了一种调节输入和输出的策略,通过量化感知训练和激活峰度正则化来实现精确的4位参数量化。与权重后训练量化相结合,我们的方法可以获得与标准精度基准相竞争的W4A4模型。
Apr, 2024
通过减少内存使用和提高操作速度,后训练量化(PTQ)能够增强大型语言模型(LLMs)的效率和与更多硬件的兼容性,尽管会导致一定的性能下降。然而,我们的研究发现在不同已知的开源LLMs中,校准集对于评估激活幅度和检测异常值至关重要,异常值可能扭曲量化范围并对性能产生负面影响。因此,我们建议重新评估当前量化文献的基础知识,从主要关注异常值保留转向优化推断速度,以适应现代化LLMs的特性。
May, 2024
OutlierTune是一种针对LLMs激活的高效后训练量化方法,它通过预执行去量化和对称化两个组件,解决了大规模语言模型的激活量化准确性和硬件效率问题。
Jun, 2024
本研究针对 Mamba 模型在长上下文理解中的效率问题,提出了 ReMamba,该模型通过选择性压缩和适应技术,增强了 Mamba 对长上下文的理解能力,且额外推理成本极小。实验结果显示,ReMamba 在 LongBench 和 L-Eval 基准测试中,分别提高了 3.2 和 1.6 的表现,表现接近相同大小的变压器模型。
Aug, 2024
本研究针对Mamba模型在长上下文理解能力的不足进行了探讨,并提出了ReMamba,旨在提高其长上下文的理解能力。ReMamba通过选择性压缩和适应技术,在两阶段的再前馈过程中引入,几乎不增加额外的推理成本,实验结果表明其在LongBench和L-Eval基准上均显著优于传统基线。
Aug, 2024