在骆驼中的眼镜蛇:蒸馏和加速混合模型
基于Transformer架构的基础模型凭借其核心注意力模块,驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理,并对此进行了改进,通过让结构状态空间模型(SSMs)参数成为输入的函数来解决离散模态的弱点,该模型在长度可选的维度上选择性地传播或遗忘信息,并且通过在递归模式下设计一种硬件感知并行算法,将这些选择性SSMs集成到简化的端到端神经网络架构中。该模型(Mamba)具有快速推断速度(比Transformers快5倍)和序列长度的线性扩展,并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持,Mamba在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中,我们的Mamba-3B模型在预训练和下游评估中均优于同样大小的Transformers,与其两倍大小的模型性能相当。
Dec, 2023
基于混合Transformer-Mamba和专家混合(MoE)架构,Jamba是一个强大的基础大型语言模型,具有资源和目标特定的配置,能够在单个80GB GPU上提供高吞吐量和小内存占用,同时在标准语言模型基准测试和长文本上展示出最先进的表现。
Mar, 2024
研究论文通过对Mamba状态空间模型进行多种实验和评估,证明了其在混合精度和参数高效微调方面的能力,同时还分析了其在上下文学习方面的性能与Transformer大型语言模型的差异,并提出了基于动力学系统理论的验证方法。
May, 2024
选择性状态空间模型(SSMs)如Mamba克服了Transformer的一些缺点,例如与序列长度呈二次增长的计算复杂度和从键值缓存中获取大量的推理时间内存需求。此外,最近的研究显示,SSMs可以达到或超越Transformer的语言建模能力,使其成为一种有吸引力的替代选择。然而,迄今为止的研究只在相同数据的受控环境中进行了小规模实验,比较了SSMs和Transformers。为了了解这些体系结构在更大规模上的优缺点,我们在相同数据集上直接比较了8B参数的Mamba、Mamba-2和Transformer模型,数据集涵盖了多达3.5T个标记。我们还将这些模型与由43%的Mamba-2、7%的注意力和50%的MLP层(Mamba-2-Hybrid)组成的混合体系结构进行了比较。通过使用多种任务,我们回答了Mamba模型是否能在较大的训练预算下与Transformers相匹配的问题。我们的结果表明,纯SSMs在许多任务上达到或超越了Transformers,但在需要强大的复制或上下文学习能力(例如,5-shot MMLU、电话簿)或长期推理的任务上,它们落后于Transformers。相反,我们发现8B的Mamba-2-Hybrid在我们评估的所有12个标准任务上超过了8B Transformer(平均增加2.65个点),并且在生成推理标记时预计速度最多快8倍。为了验证长期上下文能力,我们进行了其他实验,评估了支持16K、32K和128K序列的Mamba-2-Hybrid和Transformer的变体。在23个额外的长期上下文任务中,混合模型在平均水平上继续紧密匹配或超越了Transformer。为了进一步的研究,我们将检查点以及用于训练我们的模型的代码作为NVIDIA的Megatron-LM项目的一部分发布。
Jun, 2024
本研究针对Transformer模型在推理过程中面临的计算复杂性问题,提出了Mamba架构作为具有线性可扩展性的替代方案。通过系统回顾Mamba相关研究,文章探讨了Mamba模型的架构设计、数据适应性及其应用,揭示了其在多个领域中的潜力与局限性,为未来研究提供了方向。
Aug, 2024
本研究针对传统Transformer模型在处理长序列时面临的计算负担与内存问题,提出了PackMamba,高效处理可变长度序列。通过分析Mamba中瓶颈操作符的表现,我们对并行操作符进行了修改,从而显著提高了处理速度,实验结果显示在NVIDIA A100 GPU上,处理1.4B和2.8B模型的速度分别提高了3.06倍和2.62倍。
Aug, 2024
本文针对现有变压器模型在推理时的二次时间复杂度问题,提出了一种新的提炼方法。该方法通过将变压器与状态空间模型视作不同的混合矩阵应用,在多层次上逐步提炼变压器架构,最终实现了基于Phi-1.5架构的Mamba-2变体的惊人性能表现。此研究表明,状态空间模型可以有效利用变压器训练过程中投入的计算资源,开启了新型模型构建的可能性。
Aug, 2024
本研究提出了Jamba-1.5,解决了当前语言模型在处理长上下文时的低效率和高内存消耗问题。通过引入一种新颖的混合Transformer-Mamba架构,该模型在长上下文下依然保持高效的处理能力与优良的质量。研究发现,Jamba-1.5在多个基准测试中的表现优异,具有广泛的应用潜力。
Aug, 2024
本文探讨了曼巴在序列建模中的表现,分析其在处理COPY操作时的局限性。研究发现,曼巴在序列长度线性增加时表现优异,但在固定大小时可能面临瓶颈,然而在解决某些动态规划问题时,其总成本与标准高效Transformer类似,展现出其在特定条件下的优势。
Oct, 2024
本研究解决了大型语言模型在无注意力架构下的性能不足问题。通过提出全新的曼巴架构并训练Falcon Mamba 7B模型,研究显示该模型在多个基准测试中超越了现有的知名Transformer模型,展现出更快的推理速度和更低的内存需求。该成果有潜力推动无注意力模型的应用与发展。
Oct, 2024