VL-Mamba: 多模式学习中的状态空间模型探索

Mar, 2024

VL-Mamba: 多模式学习中的状态空间模型探索

VL-Mamba: Exploring State Space Models for Multimodal Learning

Yanyuan Qiao, Zheng Yu, Longteng Guo, Sihan Chen, Zijia Zhao...

TL;DR通过基于状态空间模型的 VL-Mamba 多模态大语言模型和 2D 视觉选择扫描机制以及不同视觉编码器和预训练 Mamba 语言模型的组合的实证研究，我们证明了状态空间模型在多模态学习任务中具有巨大潜力，并展示了 VL-Mamba 在各种多模态基准测试中具有竞争力的性能。

Abstract

multimodal large language models (MLLMs) have attracted widespread interest and have rich applications. However, the inherent attention mechanism in its Transformer structure requires quadratic complexity and results in expensive computational overhead. Therefore, in this work, we prop

multimodal large language models vl-mamba state space models long-sequence modeling multimodal learning

发现论文，激发创造

Mamba：具有选择性状态空间的线性时间序列建模

基于 Transformer 架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比 Transformers 快 5 倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers，与其两倍大小的模型性能相当。

Dec, 2023

Cobra: 扩展 Mamba 至多模态大型语言模型以实现高效推理

通过将高效的 Mamba 语言模型引入视觉模态，Cobra 实现了线性计算复杂度的多模态大型语言模型，其在现有的计算效率高的方法上表现出极具竞争力的性能，并且具有更快的速度；同时，Cobra 在克服视觉错觉和空间关系判断方面表现出色，甚至与 LLaVA 在参数数量只有 43% 时表现相当；我们将开源 Cobra 的所有代码，希望该方法能促进 MLLM 的复杂性问题的未来研究。

Mar, 2024

Mamba-ND：针对多维数据的选择性状态空间建模

本文介绍了一种名为 Mamba-ND 的通用设计，将 Mamba 架构扩展到任意多维数据，并通过与其他替代方案的比较实证表明 Mamba-ND 在多个多维基准测试中表现出与最先进方法相竞争的性能。

Feb, 2024

关于视觉曼巴的调查

该研究综述了 Mamba 模型在计算机视觉领域的基本概念和优化方法，并介绍了它们在不同层次的视觉任务中的广泛应用，旨在引起学术界对当前挑战的关注并进一步应用 Mamba 模型于计算机视觉。

Apr, 2024

一种用于图像融合的局部增强和状态共享的新型状态空间模型

基于 Mamba 算法的本地增强视觉 Mamba（LEVM）块和状态共享技术的图像融合网络（LE-Mamba）在多光谱和高光谱图像融合数据集上取得了最先进的结果，证明了该方法的有效性。

Apr, 2024

RoboMamba: 高效机器人推理和操作的多模态状态空间模型

通过集成视觉编码器与 Mamba 模型，RoboMamba 同时提供了机器人推理和动作能力，并且在模型的微调和推断过程中保持了高效的计算速度。

Jun, 2024

Vision Mamba: 模型、应用和挑战综述

在这篇综述性文章中，我们回顾了 Mamba 模型的起源和核心见解，并将 Mamba 应用于不同的计算机视觉任务。我们对各种图像、视频、点云、多模态等应用进行了分类和组织，为未来在这个快速发展的领域中提供了挑战和研究方向。

Apr, 2024

Vision Mamba: 一项综合调查与分类

Mamba 是一种新型的人工智能架构，基于最新的状态空间模型，具有强大的效率和长距离依赖建模能力，被广泛应用于深度学习中的自然语言处理和视觉领域。本综述研究了 Mamba 在视觉任务和数据类型上的应用，探讨了其前身、最新进展以及对各领域的深远影响。

May, 2024

解读视觉中的莽巴：线性注意力视角

探索了 Mamba 模型与线性注意力 Transformer 之间的相似性和差异性，发现忘记门和块设计是 Mamba 模型成功的核心因素，并通过融合这两个关键设计提出了 Mamba-Like Linear Attention (MLLA) 模型，该模型在图像分类和高分辨率密集预测任务中优于多种视觉任务中的 Mamba 模型，同时具有可并行计算和快速推理速度。

May, 2024

基于蟒蛇的语言模型的实证研究

选择性状态空间模型（SSMs）如 Mamba 克服了 Transformer 的一些缺点，例如与序列长度呈二次增长的计算复杂度和从键值缓存中获取大量的推理时间内存需求。此外，最近的研究显示，SSMs 可以达到或超越 Transformer 的语言建模能力，使其成为一种有吸引力的替代选择。然而，迄今为止的研究只在相同数据的受控环境中进行了小规模实验，比较了 SSMs 和 Transformers。为了了解这些体系结构在更大规模上的优缺点，我们在相同数据集上直接比较了 8B 参数的 Mamba、Mamba-2 和 Transformer 模型，数据集涵盖了多达 3.5T 个标记。我们还将这些模型与由 43% 的 Mamba-2、7% 的注意力和 50% 的 MLP 层（Mamba-2-Hybrid）组成的混合体系结构进行了比较。通过使用多种任务，我们回答了 Mamba 模型是否能在较大的训练预算下与 Transformers 相匹配的问题。我们的结果表明，纯 SSMs 在许多任务上达到或超越了 Transformers，但在需要强大的复制或上下文学习能力（例如，5-shot MMLU、电话簿）或长期推理的任务上，它们落后于 Transformers。相反，我们发现 8B 的 Mamba-2-Hybrid 在我们评估的所有 12 个标准任务上超过了 8B Transformer（平均增加 2.65 个点），并且在生成推理标记时预计速度最多快 8 倍。为了验证长期上下文能力，我们进行了其他实验，评估了支持 16K、32K 和 128K 序列的 Mamba-2-Hybrid 和 Transformer 的变体。在 23 个额外的长期上下文任务中，混合模型在平均水平上继续紧密匹配或超越了 Transformer。为了进一步的研究，我们将检查点以及用于训练我们的模型的代码作为 NVIDIA 的 Megatron-LM 项目的一部分发布。

Jun, 2024