Cobra: 扩展 Mamba 至多模态大型语言模型以实现高效推理
通过基于状态空间模型的 VL-Mamba 多模态大语言模型和 2D 视觉选择扫描机制以及不同视觉编码器和预训练 Mamba 语言模型的组合的实证研究,我们证明了状态空间模型在多模态学习任务中具有巨大潜力,并展示了 VL-Mamba 在各种多模态基准测试中具有竞争力的性能。
Mar, 2024
通过集成视觉编码器与 Mamba 模型,RoboMamba 同时提供了机器人推理和动作能力,并且在模型的微调和推断过程中保持了高效的计算速度。
Jun, 2024
在这篇综述性文章中,我们回顾了 Mamba 模型的起源和核心见解,并将 Mamba 应用于不同的计算机视觉任务。我们对各种图像、视频、点云、多模态等应用进行了分类和组织,为未来在这个快速发展的领域中提供了挑战和研究方向。
Apr, 2024
在本文中,我们研究了 Multimodal Small Language Models(MSLMs)的设计方面,并提出了一种高效的多模态助手 Mipha,旨在在视觉表示、语言模型和优化策略等各个方面产生协同效应。我们展示了在不增加训练数据量的情况下,我们的 Mipha-3B 在多个基准测试中表现优于最先进的大型 MLLMs,尤其是 LLaVA-1.5-13B。通过详细讨论,我们提供了开发强大的 MSLMs 以与 MLLMs 能力匹敌的见解和指南。
Mar, 2024
利用 Mamba SSM 和 MoE 相结合的新型架构 BlackMamba,在模型训练和推理 FLOPs 方面表现优秀,实现了 SSM 的线性复杂度生成和 MoE 快速高效推理的结合。
Feb, 2024
我们介绍了 MammothModa,这是另一个多模态大型语言模型(MLLM),旨在从基本基线实现最先进的性能。我们关注了三个关键设计见解:(i)在保持复杂语言理解的同时融入视觉能力:除了视觉编码器外,我们还将视觉注意力专家纳入 LLM 以增强其视觉能力。(ii)扩展上下文窗口以获得高分辨率和长持续时间的视觉特征:我们探索了视觉合并模块,以有效地减少高分辨率图像的标记数量,并引入了帧位置 ID 以避免位置插值。(iii)高质量的双语数据集:我们精心策划和筛选了一个高质量的双模态双语数据集,以减少视觉幻觉。通过上述方法,我们构建的 MammothModa 在主要的真实世界视觉语言基准测试中始终优于最先进的模型,例如 LLaVA 系列模型,而没有花里胡哨的东西。
Jun, 2024
提出了一种基于 FusionMamba 的动态特征增强方法,用于多模式图像融合,具有与 Mamba 相同的性能和全局建模能力,同时降低通道冗余并增强本地增强能力。证明了该模型在各种多模式医学图像融合任务(CT-MRI、PET-MRI、SPECT-MRI)、红外和可见图像融合任务(IR-VIS)以及多模式生物医学图像融合数据集(GFP-PC)中具有泛化能力。
Apr, 2024
选择性状态空间模型(SSMs)如 Mamba 克服了 Transformer 的一些缺点,例如与序列长度呈二次增长的计算复杂度和从键值缓存中获取大量的推理时间内存需求。此外,最近的研究显示,SSMs 可以达到或超越 Transformer 的语言建模能力,使其成为一种有吸引力的替代选择。然而,迄今为止的研究只在相同数据的受控环境中进行了小规模实验,比较了 SSMs 和 Transformers。为了了解这些体系结构在更大规模上的优缺点,我们在相同数据集上直接比较了 8B 参数的 Mamba、Mamba-2 和 Transformer 模型,数据集涵盖了多达 3.5T 个标记。我们还将这些模型与由 43% 的 Mamba-2、7% 的注意力和 50% 的 MLP 层(Mamba-2-Hybrid)组成的混合体系结构进行了比较。通过使用多种任务,我们回答了 Mamba 模型是否能在较大的训练预算下与 Transformers 相匹配的问题。我们的结果表明,纯 SSMs 在许多任务上达到或超越了 Transformers,但在需要强大的复制或上下文学习能力(例如,5-shot MMLU、电话簿)或长期推理的任务上,它们落后于 Transformers。相反,我们发现 8B 的 Mamba-2-Hybrid 在我们评估的所有 12 个标准任务上超过了 8B Transformer(平均增加 2.65 个点),并且在生成推理标记时预计速度最多快 8 倍。为了验证长期上下文能力,我们进行了其他实验,评估了支持 16K、32K 和 128K 序列的 Mamba-2-Hybrid 和 Transformer 的变体。在 23 个额外的长期上下文任务中,混合模型在平均水平上继续紧密匹配或超越了 Transformer。为了进一步的研究,我们将检查点以及用于训练我们的模型的代码作为 NVIDIA 的 Megatron-LM 项目的一部分发布。
Jun, 2024
基于 Transformer 架构的基础模型凭借其核心注意力模块,驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理,并对此进行了改进,通过让结构状态空间模型(SSMs)参数成为输入的函数来解决离散模态的弱点,该模型在长度可选的维度上选择性地传播或遗忘信息,并且通过在递归模式下设计一种硬件感知并行算法,将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型(Mamba)具有快速推断速度(比 Transformers 快 5 倍)和序列长度的线性扩展,并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持,Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中,我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers,与其两倍大小的模型性能相当。
Dec, 2023
多模态融合的核心在于利用不同模态所固有的互补信息,然而现有的融合方法对于捕捉模态之间的复杂内部和相互关联动态缺乏充分准备,而最近在至关重要的状态空间模型 (SSM) 方面取得的进展,尤其是 Mamba 模型,成为有希望的竞争者,本文提出了耦合 SSM 模型来解决多种模态融合时的挑战,通过设计一个模态间隐藏状态转换方案以及并行计算的全局卷积核,实现多模态融合并在实验证实了其有效性。
May, 2024