DenseMamba：具有密集隐藏连接的状态空间模型，用于高效的大型语言模型

Feb, 2024

DenseMamba：具有密集隐藏连接的状态空间模型，用于高效的大型语言模型

DenseMamba: State Space Models with Dense Hidden Connection for Efficient Large Language Models

Wei He, Kai Han, Yehui Tang, Chengcheng Wang, Yujie Yang...

TL;DR通过在 SSM 中选择性地将浅层隐藏状态集成到深层中，DenseSSM 提供了一种增强隐藏信息流动的新方法，能够在保持训练并行性和推理效率的同时，显著提高各种 SSM 类型的性能。

Abstract

large language models (LLMs) face a daunting challenge due to the excessive computational and memory requirements of the commonly used Transformer architecture. While state space model (SSM) is a new type of foun

large language models state space model densessm fine-grained information retnet

发现论文，激发创造

变压器是 SSM：通过结构化状态空间对偶实现的广义模型和高效算法

Transformers 与 state-space models（包括 Mamba）存在相关性，通过结构化半可分矩阵的各种分解，我们开发了一个理论连接的丰富框架，证明了这些模型家族之间的联系。基于我们的 state space duality（SSD）框架，我们设计了一种新的架构（Mamba-2），其核心层是 Mamba 的选择性 SSM 的改进，速度提高了 2-8 倍，同时继续与 Transformers 在语言建模方面竞争。

May, 2024

Mamba：具有选择性状态空间的线性时间序列建模

基于 Transformer 架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比 Transformers 快 5 倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers，与其两倍大小的模型性能相当。

Dec, 2023

深度选择状态空间模型的理论基础

基于 Rough Path Theory，本研究证明了具备选择性机制的随机线性递归在输入控制条件下可产生低维投射的隐藏状态，并阐述了现代选择性状态空间模型的成功和未来 SSM 变体的表达能力。

Feb, 2024

MambaAD：用于多类无监督异常检测的状态空间模型研究

应用 Mamba 到多类无监督异常检测，提出了包含预训练编码器和 Mamba 解码器的 MambaAD，通过在多个尺度上引入局部增强状态空间模块 (LSS)，该方法在六个不同的异常检测数据集上展示了具有 SoTA 性能的结果，证实了其有效性。

Apr, 2024

Mamba3D：基于状态空间模型增强 3D 点云分析的本地特征

通过引入局部几何特征提取机制和双向状态空间模型（bi-SSM），Mamba3D 模型在点云学习中取得了超过 Transformer 的卓越性能、高效性和可扩展性，在多个任务中超越同类模型和并行研究，包括在 ScanObjectNN 任务中从头开始的 92.6% 综合准确性和在 ModelNet40 分类任务中基于单模态预训练达到 95.1% 的准确性，并且具有线性复杂度。

Apr, 2024

BlackMamba: 状态空间模型的专家混合

利用 Mamba SSM 和 MoE 相结合的新型架构 BlackMamba，在模型训练和推理 FLOPs 方面表现优秀，实现了 SSM 的线性复杂度生成和 MoE 快速高效推理的结合。

Feb, 2024

Mamba24/8D: 通过状态空间模型增强点云的全局交互

通过借鉴最近的状态空间模型在长序列建模方面的潜力，我们引入了基于 SSM（状态空间模型）的架构 Mamba 到点云领域，并提出了 Mamba24/8D，它在线性复杂度下具有强大的全局建模能力。该架构在多个 3D 点云分割任务上取得了最先进的结果，并通过大量实验证实了其有效性。

Jun, 2024

计算效率时代：医学图像分析中状态空间模型的综合调查

该论文通过对 Mamba 模型在医学图像中的应用进行全面回顾，介绍了该模型的架构、分类和未来研究方向。

Jun, 2024

用于新一代网络替代 Transformer 的状态空间模型：概述

在这篇论文中，我们首次全面回顾了 State Space Model（SSM）作为自注意力基础的 Transformer 模型的特性和优势，并提供了实验比较和分析。此外，我们还研究了 SSM 在自然语言处理和计算机视觉等多个领域的应用，并提出了未来研究的方向，希望能推动 SSM 在理论模型和应用方面的发展。

Apr, 2024

基于蟒蛇的语言模型的实证研究

选择性状态空间模型（SSMs）如 Mamba 克服了 Transformer 的一些缺点，例如与序列长度呈二次增长的计算复杂度和从键值缓存中获取大量的推理时间内存需求。此外，最近的研究显示，SSMs 可以达到或超越 Transformer 的语言建模能力，使其成为一种有吸引力的替代选择。然而，迄今为止的研究只在相同数据的受控环境中进行了小规模实验，比较了 SSMs 和 Transformers。为了了解这些体系结构在更大规模上的优缺点，我们在相同数据集上直接比较了 8B 参数的 Mamba、Mamba-2 和 Transformer 模型，数据集涵盖了多达 3.5T 个标记。我们还将这些模型与由 43% 的 Mamba-2、7% 的注意力和 50% 的 MLP 层（Mamba-2-Hybrid）组成的混合体系结构进行了比较。通过使用多种任务，我们回答了 Mamba 模型是否能在较大的训练预算下与 Transformers 相匹配的问题。我们的结果表明，纯 SSMs 在许多任务上达到或超越了 Transformers，但在需要强大的复制或上下文学习能力（例如，5-shot MMLU、电话簿）或长期推理的任务上，它们落后于 Transformers。相反，我们发现 8B 的 Mamba-2-Hybrid 在我们评估的所有 12 个标准任务上超过了 8B Transformer（平均增加 2.65 个点），并且在生成推理标记时预计速度最多快 8 倍。为了验证长期上下文能力，我们进行了其他实验，评估了支持 16K、32K 和 128K 序列的 Mamba-2-Hybrid 和 Transformer 的变体。在 23 个额外的长期上下文任务中，混合模型在平均水平上继续紧密匹配或超越了 Transformer。为了进一步的研究，我们将检查点以及用于训练我们的模型的代码作为 NVIDIA 的 Megatron-LM 项目的一部分发布。

Jun, 2024