蟒蛇是否能进行上下文学习？

Feb, 2024

Is Mamba Capable of In-Context Learning?

Riccardo Grazzi, Julien Siems, Simon Schrodi, Thomas Brox, Frank Hutter

TL;DR这项研究提供了实证证据，证明了一种新提出的选择性结构化状态空间模型 Mamba 具有类似于 transformers 的上下文学习（ICL）能力。我们在涉及简单函数逼近和更复杂的自然语言处理问题的任务上评估了 Mamba。我们的结果表明，在两类任务中，Mamba 与 transformer 模型在 ICL 方面的性能相当。进一步的分析表明，像 transformer 一样，Mamba 似乎通过逐步优化其内部表示来解决 ICL 问题。总体而言，我们的研究表明，对于涉及更长输入序列的 ICL 任务，Mamba 可以作为 transformers 的高效替代品。

Abstract

This work provides empirical evidence that mamba, a newly proposed selective structured state space model, has similar in-context learning

mamba structured state space model in-context learning transformers icl tasks

发现论文，激发创造

蟒蛇是否能学会学习？一项关于上下文学习任务的比较研究

使用混合模型能够增强在语言模型中的上下文学习能力，这项研究对几种模型进行了比较，发现混合模型可以在某些任务中克服各个模型独立处理时的局限性。

Feb, 2024

基于蟒蛇的语言模型的实证研究

选择性状态空间模型（SSMs）如 Mamba 克服了 Transformer 的一些缺点，例如与序列长度呈二次增长的计算复杂度和从键值缓存中获取大量的推理时间内存需求。此外，最近的研究显示，SSMs 可以达到或超越 Transformer 的语言建模能力，使其成为一种有吸引力的替代选择。然而，迄今为止的研究只在相同数据的受控环境中进行了小规模实验，比较了 SSMs 和 Transformers。为了了解这些体系结构在更大规模上的优缺点，我们在相同数据集上直接比较了 8B 参数的 Mamba、Mamba-2 和 Transformer 模型，数据集涵盖了多达 3.5T 个标记。我们还将这些模型与由 43% 的 Mamba-2、7% 的注意力和 50% 的 MLP 层（Mamba-2-Hybrid）组成的混合体系结构进行了比较。通过使用多种任务，我们回答了 Mamba 模型是否能在较大的训练预算下与 Transformers 相匹配的问题。我们的结果表明，纯 SSMs 在许多任务上达到或超越了 Transformers，但在需要强大的复制或上下文学习能力（例如，5-shot MMLU、电话簿）或长期推理的任务上，它们落后于 Transformers。相反，我们发现 8B 的 Mamba-2-Hybrid 在我们评估的所有 12 个标准任务上超过了 8B Transformer（平均增加 2.65 个点），并且在生成推理标记时预计速度最多快 8 倍。为了验证长期上下文能力，我们进行了其他实验，评估了支持 16K、32K 和 128K 序列的 Mamba-2-Hybrid 和 Transformer 的变体。在 23 个额外的长期上下文任务中，混合模型在平均水平上继续紧密匹配或超越了 Transformer。为了进一步的研究，我们将检查点以及用于训练我们的模型的代码作为 NVIDIA 的 Megatron-LM 项目的一部分发布。

Jun, 2024

蟒蛇状态空间模型可成为强大的下游学习模型

研究论文通过对 Mamba 状态空间模型进行多种实验和评估，证明了其在混合精度和参数高效微调方面的能力，同时还分析了其在上下文学习方面的性能与 Transformer 大型语言模型的差异，并提出了基于动力学系统理论的验证方法。

May, 2024

MaIL: 提升 Mamba 的模仿学习

Mamba Imitation Learning (MaIL) is a versatile architecture that improves the performance of state space models and rivals against Transformers, outperforming them in all LIBERO tasks, achieving good performance with small datasets, effectively processing multi-modal sensory inputs, and being more robust to input noise.

Jun, 2024

Mamba：具有选择性状态空间的线性时间序列建模

基于 Transformer 架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比 Transformers 快 5 倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers，与其两倍大小的模型性能相当。

Dec, 2023

探索未知领域：从 Transformer 到 Mamba 的导航指南

综述了一种名为 Mamba 的机制，讨论了其在深度神经网络（例如 Transformer）和自然语言处理领域中的潜力、改进以及与其他网络的集成等相关研究方向。

Jun, 2024

VL-Mamba: 多模式学习中的状态空间模型探索

通过基于状态空间模型的 VL-Mamba 多模态大语言模型和 2D 视觉选择扫描机制以及不同视觉编码器和预训练 Mamba 语言模型的组合的实证研究，我们证明了状态空间模型在多模态学习任务中具有巨大潜力，并展示了 VL-Mamba 在各种多模态基准测试中具有竞争力的性能。

Mar, 2024

RankMamba，在变形金刚时代评估 Mamba 的文档排名性能

通过在经典的 IR 任务 - 文档排序中考察 Mamba 的效果，我们发现 Mamba 模型在与具有相同训练方法的基于 Transformer 的模型相比具有有竞争力的性能，但与 flash attention 等高效的 Transformer 实现相比，训练吞吐量较低。我们希望这项研究能够成为探索 Mamba 模型在其他经典 IR 任务中的起点。

Mar, 2024

DeciMamba: 探索 Mamba 的长度外推潜能

通过对 Mamba 的可推广长度进行可视化和分析，发现限制来自于训练阶段使用的序列长度，为了解决此限制，引入了一种特别设计给 Mamba 的上下文扩展方法 DeciMamba，通过 S6 层中嵌入的隐藏过滤机制，使得经过训练的模型即使没有额外的训练也能良好地推广，经真实世界的长距离 NLP 任务实验表明，DeciMamba 可以将推广的上下文长度延长到训练过程中看到的长度的 25 倍，而且无需使用额外的计算资源。

Jun, 2024

解读视觉中的莽巴：线性注意力视角

探索了 Mamba 模型与线性注意力 Transformer 之间的相似性和差异性，发现忘记门和块设计是 Mamba 模型成功的核心因素，并通过融合这两个关键设计提出了 Mamba-Like Linear Attention (MLLA) 模型，该模型在图像分类和高分辨率密集预测任务中优于多种视觉任务中的 Mamba 模型，同时具有可并行计算和快速推理速度。

May, 2024