MoE-Mamba：高效的混合专家选择性状态空间模型

Jan, 2024

MoE-Mamba：高效的混合专家选择性状态空间模型

MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

Maciej Pióro, Kamil Ciebiera, Krystian Król, Jan Ludziejewski, Sebastian Jaszczur

TL;DR将混合专家模型应用于状态空间模型可显著提高其性能，MoE-Mamba 模型在 2.2 倍的训练步骤下达到与 Mamba 相同的性能，同时保持了 Mamba 模型对 Transformer 的推理性能优势。

Abstract

state space models (SSMs) have become serious contenders in the field of sequential modeling, challenging the dominance of Transformers. At the same time, →

state space models sequential modeling mixture of experts moe-mamba transformer

发现论文，激发创造

BlackMamba: 状态空间模型的专家混合

利用 Mamba SSM 和 MoE 相结合的新型架构 BlackMamba，在模型训练和推理 FLOPs 方面表现优秀，实现了 SSM 的线性复杂度生成和 MoE 快速高效推理的结合。

Feb, 2024

变压器是 SSM：通过结构化状态空间对偶实现的广义模型和高效算法

Transformers 与 state-space models（包括 Mamba）存在相关性，通过结构化半可分矩阵的各种分解，我们开发了一个理论连接的丰富框架，证明了这些模型家族之间的联系。基于我们的 state space duality（SSD）框架，我们设计了一种新的架构（Mamba-2），其核心层是 Mamba 的选择性 SSM 的改进，速度提高了 2-8 倍，同时继续与 Transformers 在语言建模方面竞争。

May, 2024

蟒蛇状态空间模型可成为强大的下游学习模型

研究论文通过对 Mamba 状态空间模型进行多种实验和评估，证明了其在混合精度和参数高效微调方面的能力，同时还分析了其在上下文学习方面的性能与 Transformer 大型语言模型的差异，并提出了基于动力学系统理论的验证方法。

May, 2024

OTCE：混合 SSM 和注意力机制，通过跨领域专家混合构建观察者 - 思考者 - 构思者 - 表达者

将 Mamba 与 Transformer 架构相结合，利用二次自注意机制与有选择的状态空间处理长期依赖关系，并通过位置信息注入方法连接两种架构，设计了一种新的 Observer-Thinker-Conceiver-Expresser (OTCE) 架构，在小规模语言建模任务中能够与知名的中等规模开源语言模型竞争。

Jun, 2024

计算效率时代：医学图像分析中状态空间模型的综合调查

该论文通过对 Mamba 模型在医学图像中的应用进行全面回顾，介绍了该模型的架构、分类和未来研究方向。

Jun, 2024

Mamba：具有选择性状态空间的线性时间序列建模

基于 Transformer 架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比 Transformers 快 5 倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers，与其两倍大小的模型性能相当。

Dec, 2023

基于蟒蛇的语言模型的实证研究

选择性状态空间模型（SSMs）如 Mamba 克服了 Transformer 的一些缺点，例如与序列长度呈二次增长的计算复杂度和从键值缓存中获取大量的推理时间内存需求。此外，最近的研究显示，SSMs 可以达到或超越 Transformer 的语言建模能力，使其成为一种有吸引力的替代选择。然而，迄今为止的研究只在相同数据的受控环境中进行了小规模实验，比较了 SSMs 和 Transformers。为了了解这些体系结构在更大规模上的优缺点，我们在相同数据集上直接比较了 8B 参数的 Mamba、Mamba-2 和 Transformer 模型，数据集涵盖了多达 3.5T 个标记。我们还将这些模型与由 43% 的 Mamba-2、7% 的注意力和 50% 的 MLP 层（Mamba-2-Hybrid）组成的混合体系结构进行了比较。通过使用多种任务，我们回答了 Mamba 模型是否能在较大的训练预算下与 Transformers 相匹配的问题。我们的结果表明，纯 SSMs 在许多任务上达到或超越了 Transformers，但在需要强大的复制或上下文学习能力（例如，5-shot MMLU、电话簿）或长期推理的任务上，它们落后于 Transformers。相反，我们发现 8B 的 Mamba-2-Hybrid 在我们评估的所有 12 个标准任务上超过了 8B Transformer（平均增加 2.65 个点），并且在生成推理标记时预计速度最多快 8 倍。为了验证长期上下文能力，我们进行了其他实验，评估了支持 16K、32K 和 128K 序列的 Mamba-2-Hybrid 和 Transformer 的变体。在 23 个额外的长期上下文任务中，混合模型在平均水平上继续紧密匹配或超越了 Transformer。为了进一步的研究，我们将检查点以及用于训练我们的模型的代码作为 NVIDIA 的 Megatron-LM 项目的一部分发布。

Jun, 2024

曼巴在时间序列预测中是否有效？

本文介绍了两种基于状态空间模型（SSM）的时序预测模型，S-Mamba 和 D-Mamba，它们利用 Mamba 块提取变量之间的相关性，在节省 GPU 内存和训练时间的同时实现了卓越的性能，同时通过大量实验比较了 Mamba 和 Transformer 在时序预测中的潜力，为该领域探索了新的研究方向。

Mar, 2024

VL-Mamba: 多模式学习中的状态空间模型探索

通过基于状态空间模型的 VL-Mamba 多模态大语言模型和 2D 视觉选择扫描机制以及不同视觉编码器和预训练 Mamba 语言模型的组合的实证研究，我们证明了状态空间模型在多模态学习任务中具有巨大潜力，并展示了 VL-Mamba 在各种多模态基准测试中具有竞争力的性能。

Mar, 2024

ST-MoE: 设计稳定且可转移的稀疏专家模型

本文关注自然语言处理中的训练不稳定和模型精确性问题，研究提出一种设计指南，通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习，成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。

Feb, 2022