Mamba-ND:针对多维数据的选择性状态空间建模
基于 Transformer 架构的基础模型凭借其核心注意力模块,驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理,并对此进行了改进,通过让结构状态空间模型(SSMs)参数成为输入的函数来解决离散模态的弱点,该模型在长度可选的维度上选择性地传播或遗忘信息,并且通过在递归模式下设计一种硬件感知并行算法,将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型(Mamba)具有快速推断速度(比 Transformers 快 5 倍)和序列长度的线性扩展,并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持,Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中,我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers,与其两倍大小的模型性能相当。
Dec, 2023
通过基于状态空间模型的 VL-Mamba 多模态大语言模型和 2D 视觉选择扫描机制以及不同视觉编码器和预训练 Mamba 语言模型的组合的实证研究,我们证明了状态空间模型在多模态学习任务中具有巨大潜力,并展示了 VL-Mamba 在各种多模态基准测试中具有竞争力的性能。
Mar, 2024
通过借鉴最近的状态空间模型在长序列建模方面的潜力,我们引入了基于 SSM(状态空间模型)的架构 Mamba 到点云领域,并提出了 Mamba24/8D,它在线性复杂度下具有强大的全局建模能力。该架构在多个 3D 点云分割任务上取得了最先进的结果,并通过大量实验证实了其有效性。
Jun, 2024
该研究探讨决策变压器架构中整合 Mamba 框架的潜在性能提升,并通过实验评估修改后的决策变压器模型 Decision Mamba 在不同决策环境中的效果,为顺序决策模型的发展做出贡献,突显了神经网络的架构和训练方法对复杂任务性能的重要影响,并突出了 Mamba 作为改进强化学习场景中基于 Transformer 模型的有效工具的潜力。
Mar, 2024
本研究介绍了 Graph-Mamba,通过将 Mamba block 与依赖于输入的节点选择机制进行整合,增强了图网络中的长程上下文建模,从而显著提高了预测性能。通过对十个基准数据集的广泛实验,证明 Graph-Mamba 在长程图预测任务中胜过最先进的方法,且在 FLOPs 和 GPU 内存消耗方面计算成本只占一小部分。
Feb, 2024
基于状态空间模型 (SSM) 成功在 NLP 任务中进行序列建模的启发,我们提出了具有全局建模和线性复杂度的 PointMamba 框架,通过重新排序策略提供更合理的几何扫描顺序来增强 SSM 的全局建模能力,实验证明我们的 PointMamba 在不同的点云分析数据集上胜过基于 transformer 的对应模型,同时节省了约 44.3% 的参数和 25% 的 FLOPs,展示了构建基础 3D 视觉模型的潜在选择,并为点云分析提供了新的视角。
Feb, 2024
应用 Mamba 到多类无监督异常检测,提出了包含预训练编码器和 Mamba 解码器的 MambaAD,通过在多个尺度上引入局部增强状态空间模块 (LSS),该方法在六个不同的异常检测数据集上展示了具有 SoTA 性能的结果,证实了其有效性。
Apr, 2024
探索了 Mamba 模型与线性注意力 Transformer 之间的相似性和差异性,发现忘记门和块设计是 Mamba 模型成功的核心因素,并通过融合这两个关键设计提出了 Mamba-Like Linear Attention (MLLA) 模型,该模型在图像分类和高分辨率密集预测任务中优于多种视觉任务中的 Mamba 模型,同时具有可并行计算和快速推理速度。
May, 2024
Transformers 与 state-space models(包括 Mamba)存在相关性,通过结构化半可分矩阵的各种分解,我们开发了一个理论连接的丰富框架,证明了这些模型家族之间的联系。基于我们的 state space duality(SSD)框架,我们设计了一种新的架构(Mamba-2),其核心层是 Mamba 的选择性 SSM 的改进,速度提高了 2-8 倍,同时继续与 Transformers 在语言建模方面竞争。
May, 2024