ReMamba:赋予Mamba有效的长序列建模能力
基于Transformer架构的基础模型凭借其核心注意力模块,驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理,并对此进行了改进,通过让结构状态空间模型(SSMs)参数成为输入的函数来解决离散模态的弱点,该模型在长度可选的维度上选择性地传播或遗忘信息,并且通过在递归模式下设计一种硬件感知并行算法,将这些选择性SSMs集成到简化的端到端神经网络架构中。该模型(Mamba)具有快速推断速度(比Transformers快5倍)和序列长度的线性扩展,并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持,Mamba在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中,我们的Mamba-3B模型在预训练和下游评估中均优于同样大小的Transformers,与其两倍大小的模型性能相当。
Dec, 2023
这项研究提供了实证证据,证明了一种新提出的选择性结构化状态空间模型Mamba具有类似于transformers的上下文学习(ICL)能力。我们在涉及简单函数逼近和更复杂的自然语言处理问题的任务上评估了Mamba。我们的结果表明,在两类任务中,Mamba与transformer模型在ICL方面的性能相当。进一步的分析表明,像transformer一样,Mamba似乎通过逐步优化其内部表示来解决ICL问题。总体而言,我们的研究表明,对于涉及更长输入序列的ICL任务,Mamba可以作为transformers的高效替代品。
Feb, 2024
选择性状态空间模型(SSMs)如Mamba克服了Transformer的一些缺点,例如与序列长度呈二次增长的计算复杂度和从键值缓存中获取大量的推理时间内存需求。此外,最近的研究显示,SSMs可以达到或超越Transformer的语言建模能力,使其成为一种有吸引力的替代选择。然而,迄今为止的研究只在相同数据的受控环境中进行了小规模实验,比较了SSMs和Transformers。为了了解这些体系结构在更大规模上的优缺点,我们在相同数据集上直接比较了8B参数的Mamba、Mamba-2和Transformer模型,数据集涵盖了多达3.5T个标记。我们还将这些模型与由43%的Mamba-2、7%的注意力和50%的MLP层(Mamba-2-Hybrid)组成的混合体系结构进行了比较。通过使用多种任务,我们回答了Mamba模型是否能在较大的训练预算下与Transformers相匹配的问题。我们的结果表明,纯SSMs在许多任务上达到或超越了Transformers,但在需要强大的复制或上下文学习能力(例如,5-shot MMLU、电话簿)或长期推理的任务上,它们落后于Transformers。相反,我们发现8B的Mamba-2-Hybrid在我们评估的所有12个标准任务上超过了8B Transformer(平均增加2.65个点),并且在生成推理标记时预计速度最多快8倍。为了验证长期上下文能力,我们进行了其他实验,评估了支持16K、32K和128K序列的Mamba-2-Hybrid和Transformer的变体。在23个额外的长期上下文任务中,混合模型在平均水平上继续紧密匹配或超越了Transformer。为了进一步的研究,我们将检查点以及用于训练我们的模型的代码作为NVIDIA的Megatron-LM项目的一部分发布。
Jun, 2024
通过对Mamba的可推广长度进行可视化和分析,发现限制来自于训练阶段使用的序列长度,为了解决此限制,引入了一种特别设计给Mamba的上下文扩展方法DeciMamba,通过S6层中嵌入的隐藏过滤机制,使得经过训练的模型即使没有额外的训练也能良好地推广,经真实世界的长距离NLP任务实验表明,DeciMamba可以将推广的上下文长度延长到训练过程中看到的长度的25倍,而且无需使用额外的计算资源。
Jun, 2024
通过严格细致的实验比较,本文发现Mamba与transformers在句子和段落级数据集上具有相当的竞争力,并且将注意力机制集成到Mamba中可以提高翻译质量、对序列长度外推的鲁棒性和对命名实体的记忆能力。
Jul, 2024
本研究针对传统Transformer架构计算复杂性高的问题,提出了一种高效的多模态语言模型ML-Mamba,该模型基于最新的Mamba-2,具有快速处理长序列的能力。实验结果表明,ML-Mamba在多模态任务中具有竞争力的性能,其推理速度更快,且在减少参数数量的同时,表现出色。
Jul, 2024
本研究针对Transformer模型在推理过程中面临的计算复杂性问题,提出了Mamba架构作为具有线性可扩展性的替代方案。通过系统回顾Mamba相关研究,文章探讨了Mamba模型的架构设计、数据适应性及其应用,揭示了其在多个领域中的潜力与局限性,为未来研究提供了方向。
Aug, 2024
本研究针对 Mamba 模型在长上下文理解中的效率问题,提出了 ReMamba,该模型通过选择性压缩和适应技术,增强了 Mamba 对长上下文的理解能力,且额外推理成本极小。实验结果显示,ReMamba 在 LongBench 和 L-Eval 基准测试中,分别提高了 3.2 和 1.6 的表现,表现接近相同大小的变压器模型。
Aug, 2024
本研究针对Mamba模型在长上下文理解能力的不足进行了探讨,并提出了ReMamba,旨在提高其长上下文的理解能力。ReMamba通过选择性压缩和适应技术,在两阶段的再前馈过程中引入,几乎不增加额外的推理成本,实验结果表明其在LongBench和L-Eval基准上均显著优于传统基线。
Aug, 2024