Jamba：混合 Transformer-Mamba 语言模型

Mar, 2024

Jamba：混合 Transformer-Mamba 语言模型

Jamba: A Hybrid Transformer-Mamba Language Model

Opher Lieber, Barak Lenz, Hofit Bata, Gal Cohen, Jhonathan Osin...

TL;DR基于混合 Transformer-Mamba 和专家混合 (MoE) 架构，Jamba 是一个强大的基础大型语言模型，具有资源和目标特定的配置，能够在单个 80GB GPU 上提供高吞吐量和小内存占用，同时在标准语言模型基准测试和长文本上展示出最先进的表现。

Abstract

We present jamba, a new base large language model based on a novel hybrid Transformer-Mamba mixture-of-experts (moe) architecture. Specifi

jamba base large language model hybrid transformer-mamba mixture-of-experts architecture moe resource- and objective-specific configurations

发现论文，激发创造

Zamba: 一个紧凑的 70 亿参数 SSM 混合模型

Zamba 是一个独特的 7B SSM-transformer 混合模型，通过使用 Mamba 骨干和单个共享的注意力模块，以最小的参数成本实现与领先的开放式模型相媲美的性能，同时具有更快的推理速度和更低的内存需求，且在预训练中使用两个阶段：分别基于现有的网络数据集和高质量的指导和合成数据集。

May, 2024

Dimba: Transformer-Mamba 扩散模型

该论文介绍了 Dimba，一种新的文本到图像扩散模型，它采用了一种独特的混合架构，结合了 Transformer 和 Mamba 元素。

Jun, 2024

BlackMamba: 状态空间模型的专家混合

利用 Mamba SSM 和 MoE 相结合的新型架构 BlackMamba，在模型训练和推理 FLOPs 方面表现优秀，实现了 SSM 的线性复杂度生成和 MoE 快速高效推理的结合。

Feb, 2024

PoinTramba：一个用于点云分析的混合 Transformer-Mamba 框架

通过将 Transformer 和 Mamba 架构相结合，PoinTramba 方法在点云分析领域取得了显著进展，并在 ScanObjectNN、ModelNet40 和 ShapeNetPart 等数据集上展示了优越的性能，从而为该领域建立了新的分析标准。

May, 2024

VL-Mamba: 多模式学习中的状态空间模型探索

通过基于状态空间模型的 VL-Mamba 多模态大语言模型和 2D 视觉选择扫描机制以及不同视觉编码器和预训练 Mamba 语言模型的组合的实证研究，我们证明了状态空间模型在多模态学习任务中具有巨大潜力，并展示了 VL-Mamba 在各种多模态基准测试中具有竞争力的性能。

Mar, 2024

基于蟒蛇的语言模型的实证研究

选择性状态空间模型（SSMs）如 Mamba 克服了 Transformer 的一些缺点，例如与序列长度呈二次增长的计算复杂度和从键值缓存中获取大量的推理时间内存需求。此外，最近的研究显示，SSMs 可以达到或超越 Transformer 的语言建模能力，使其成为一种有吸引力的替代选择。然而，迄今为止的研究只在相同数据的受控环境中进行了小规模实验，比较了 SSMs 和 Transformers。为了了解这些体系结构在更大规模上的优缺点，我们在相同数据集上直接比较了 8B 参数的 Mamba、Mamba-2 和 Transformer 模型，数据集涵盖了多达 3.5T 个标记。我们还将这些模型与由 43% 的 Mamba-2、7% 的注意力和 50% 的 MLP 层（Mamba-2-Hybrid）组成的混合体系结构进行了比较。通过使用多种任务，我们回答了 Mamba 模型是否能在较大的训练预算下与 Transformers 相匹配的问题。我们的结果表明，纯 SSMs 在许多任务上达到或超越了 Transformers，但在需要强大的复制或上下文学习能力（例如，5-shot MMLU、电话簿）或长期推理的任务上，它们落后于 Transformers。相反，我们发现 8B 的 Mamba-2-Hybrid 在我们评估的所有 12 个标准任务上超过了 8B Transformer（平均增加 2.65 个点），并且在生成推理标记时预计速度最多快 8 倍。为了验证长期上下文能力，我们进行了其他实验，评估了支持 16K、32K 和 128K 序列的 Mamba-2-Hybrid 和 Transformer 的变体。在 23 个额外的长期上下文任务中，混合模型在平均水平上继续紧密匹配或超越了 Transformer。为了进一步的研究，我们将检查点以及用于训练我们的模型的代码作为 NVIDIA 的 Megatron-LM 项目的一部分发布。

Jun, 2024

探索未知领域：从 Transformer 到 Mamba 的导航指南

综述了一种名为 Mamba 的机制，讨论了其在深度神经网络（例如 Transformer）和自然语言处理领域中的潜力、改进以及与其他网络的集成等相关研究方向。

Jun, 2024

TRAMBA：一种针对移动和可穿戴平台的实用音频和骨传导语音超分辨率增强的混合 Transformer 和 Mamba 架构

我们提出了 TRAMBA—— 一个适用于移动和可穿戴平台的声学和骨传导语音增强的混合 Transformer 和 Mamba 架构。

May, 2024

Mamba-ND：针对多维数据的选择性状态空间建模

本文介绍了一种名为 Mamba-ND 的通用设计，将 Mamba 架构扩展到任意多维数据，并通过与其他替代方案的比较实证表明 Mamba-ND 在多个多维基准测试中表现出与最先进方法相竞争的性能。

Feb, 2024

双向 Mamba4TS：用于时间序列预测的双向 Mamba

提出了一种名为 Bi-Mamba4TS 的双向 Mamba 模型，通过采用补丁技术丰富了局部信息并精细捕捉时间序列的演化模式，同时结合数据集特征选择更合适的建模方法，实验证明该模型在七个真实数据集上相较于现有方法获得了更准确的预测结果。

Apr, 2024