DenseMamba:具有密集隐藏连接的状态空间模型,用于高效的大型语言模型
Transformers 与 state-space models(包括 Mamba)存在相关性,通过结构化半可分矩阵的各种分解,我们开发了一个理论连接的丰富框架,证明了这些模型家族之间的联系。基于我们的 state space duality(SSD)框架,我们设计了一种新的架构(Mamba-2),其核心层是 Mamba 的选择性 SSM 的改进,速度提高了 2-8 倍,同时继续与 Transformers 在语言建模方面竞争。
May, 2024
基于 Transformer 架构的基础模型凭借其核心注意力模块,驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理,并对此进行了改进,通过让结构状态空间模型(SSMs)参数成为输入的函数来解决离散模态的弱点,该模型在长度可选的维度上选择性地传播或遗忘信息,并且通过在递归模式下设计一种硬件感知并行算法,将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型(Mamba)具有快速推断速度(比 Transformers 快 5 倍)和序列长度的线性扩展,并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持,Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中,我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers,与其两倍大小的模型性能相当。
Dec, 2023
基于 Rough Path Theory,本研究证明了具备选择性机制的随机线性递归在输入控制条件下可产生低维投射的隐藏状态,并阐述了现代选择性状态空间模型的成功和未来 SSM 变体的表达能力。
Feb, 2024
应用 Mamba 到多类无监督异常检测,提出了包含预训练编码器和 Mamba 解码器的 MambaAD,通过在多个尺度上引入局部增强状态空间模块 (LSS),该方法在六个不同的异常检测数据集上展示了具有 SoTA 性能的结果,证实了其有效性。
Apr, 2024
通过引入局部几何特征提取机制和双向状态空间模型(bi-SSM),Mamba3D 模型在点云学习中取得了超过 Transformer 的卓越性能、高效性和可扩展性,在多个任务中超越同类模型和并行研究,包括在 ScanObjectNN 任务中从头开始的 92.6% 综合准确性和在 ModelNet40 分类任务中基于单模态预训练达到 95.1% 的准确性,并且具有线性复杂度。
Apr, 2024
利用 Mamba SSM 和 MoE 相结合的新型架构 BlackMamba,在模型训练和推理 FLOPs 方面表现优秀,实现了 SSM 的线性复杂度生成和 MoE 快速高效推理的结合。
Feb, 2024
通过借鉴最近的状态空间模型在长序列建模方面的潜力,我们引入了基于 SSM(状态空间模型)的架构 Mamba 到点云领域,并提出了 Mamba24/8D,它在线性复杂度下具有强大的全局建模能力。该架构在多个 3D 点云分割任务上取得了最先进的结果,并通过大量实验证实了其有效性。
Jun, 2024
在这篇论文中,我们首次全面回顾了 State Space Model(SSM)作为自注意力基础的 Transformer 模型的特性和优势,并提供了实验比较和分析。此外,我们还研究了 SSM 在自然语言处理和计算机视觉等多个领域的应用,并提出了未来研究的方向,希望能推动 SSM 在理论模型和应用方面的发展。
Apr, 2024
选择性状态空间模型(SSMs)如 Mamba 克服了 Transformer 的一些缺点,例如与序列长度呈二次增长的计算复杂度和从键值缓存中获取大量的推理时间内存需求。此外,最近的研究显示,SSMs 可以达到或超越 Transformer 的语言建模能力,使其成为一种有吸引力的替代选择。然而,迄今为止的研究只在相同数据的受控环境中进行了小规模实验,比较了 SSMs 和 Transformers。为了了解这些体系结构在更大规模上的优缺点,我们在相同数据集上直接比较了 8B 参数的 Mamba、Mamba-2 和 Transformer 模型,数据集涵盖了多达 3.5T 个标记。我们还将这些模型与由 43% 的 Mamba-2、7% 的注意力和 50% 的 MLP 层(Mamba-2-Hybrid)组成的混合体系结构进行了比较。通过使用多种任务,我们回答了 Mamba 模型是否能在较大的训练预算下与 Transformers 相匹配的问题。我们的结果表明,纯 SSMs 在许多任务上达到或超越了 Transformers,但在需要强大的复制或上下文学习能力(例如,5-shot MMLU、电话簿)或长期推理的任务上,它们落后于 Transformers。相反,我们发现 8B 的 Mamba-2-Hybrid 在我们评估的所有 12 个标准任务上超过了 8B Transformer(平均增加 2.65 个点),并且在生成推理标记时预计速度最多快 8 倍。为了验证长期上下文能力,我们进行了其他实验,评估了支持 16K、32K 和 128K 序列的 Mamba-2-Hybrid 和 Transformer 的变体。在 23 个额外的长期上下文任务中,混合模型在平均水平上继续紧密匹配或超越了 Transformer。为了进一步的研究,我们将检查点以及用于训练我们的模型的代码作为 NVIDIA 的 Megatron-LM 项目的一部分发布。
Jun, 2024