将 Mamba 和 Transformer 整合用于长短程时间序列预测
本文介绍了两种基于状态空间模型(SSM)的时序预测模型,S-Mamba 和 D-Mamba,它们利用 Mamba 块提取变量之间的相关性,在节省 GPU 内存和训练时间的同时实现了卓越的性能,同时通过大量实验比较了 Mamba 和 Transformer 在时序预测中的潜力,为该领域探索了新的研究方向。
Mar, 2024
提出了一种名为 Bi-Mamba4TS 的双向 Mamba 模型,通过采用补丁技术丰富了局部信息并精细捕捉时间序列的演化模式,同时结合数据集特征选择更合适的建模方法,实验证明该模型在七个真实数据集上相较于现有方法获得了更准确的预测结果。
Apr, 2024
选择性状态空间模型(SSMs)如 Mamba 克服了 Transformer 的一些缺点,例如与序列长度呈二次增长的计算复杂度和从键值缓存中获取大量的推理时间内存需求。此外,最近的研究显示,SSMs 可以达到或超越 Transformer 的语言建模能力,使其成为一种有吸引力的替代选择。然而,迄今为止的研究只在相同数据的受控环境中进行了小规模实验,比较了 SSMs 和 Transformers。为了了解这些体系结构在更大规模上的优缺点,我们在相同数据集上直接比较了 8B 参数的 Mamba、Mamba-2 和 Transformer 模型,数据集涵盖了多达 3.5T 个标记。我们还将这些模型与由 43% 的 Mamba-2、7% 的注意力和 50% 的 MLP 层(Mamba-2-Hybrid)组成的混合体系结构进行了比较。通过使用多种任务,我们回答了 Mamba 模型是否能在较大的训练预算下与 Transformers 相匹配的问题。我们的结果表明,纯 SSMs 在许多任务上达到或超越了 Transformers,但在需要强大的复制或上下文学习能力(例如,5-shot MMLU、电话簿)或长期推理的任务上,它们落后于 Transformers。相反,我们发现 8B 的 Mamba-2-Hybrid 在我们评估的所有 12 个标准任务上超过了 8B Transformer(平均增加 2.65 个点),并且在生成推理标记时预计速度最多快 8 倍。为了验证长期上下文能力,我们进行了其他实验,评估了支持 16K、32K 和 128K 序列的 Mamba-2-Hybrid 和 Transformer 的变体。在 23 个额外的长期上下文任务中,混合模型在平均水平上继续紧密匹配或超越了 Transformer。为了进一步的研究,我们将检查点以及用于训练我们的模型的代码作为 NVIDIA 的 Megatron-LM 项目的一部分发布。
Jun, 2024
通过对 Mamba 的可推广长度进行可视化和分析,发现限制来自于训练阶段使用的序列长度,为了解决此限制,引入了一种特别设计给 Mamba 的上下文扩展方法 DeciMamba,通过 S6 层中嵌入的隐藏过滤机制,使得经过训练的模型即使没有额外的训练也能良好地推广,经真实世界的长距离 NLP 任务实验表明,DeciMamba 可以将推广的上下文长度延长到训练过程中看到的长度的 25 倍,而且无需使用额外的计算资源。
Jun, 2024
基于 Transformer 架构的基础模型凭借其核心注意力模块,驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理,并对此进行了改进,通过让结构状态空间模型(SSMs)参数成为输入的函数来解决离散模态的弱点,该模型在长度可选的维度上选择性地传播或遗忘信息,并且通过在递归模式下设计一种硬件感知并行算法,将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型(Mamba)具有快速推断速度(比 Transformers 快 5 倍)和序列长度的线性扩展,并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持,Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中,我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers,与其两倍大小的模型性能相当。
Dec, 2023
通过将 Transformer 和 Mamba 架构相结合,PoinTramba 方法在点云分析领域取得了显著进展,并在 ScanObjectNN、ModelNet40 和 ShapeNetPart 等数据集上展示了优越的性能,从而为该领域建立了新的分析标准。
May, 2024
综述了一种名为 Mamba 的机制,讨论了其在深度神经网络(例如 Transformer)和自然语言处理领域中的潜力、改进以及与其他网络的集成等相关研究方向。
Jun, 2024
本研究介绍了 Graph-Mamba,通过将 Mamba block 与依赖于输入的节点选择机制进行整合,增强了图网络中的长程上下文建模,从而显著提高了预测性能。通过对十个基准数据集的广泛实验,证明 Graph-Mamba 在长程图预测任务中胜过最先进的方法,且在 FLOPs 和 GPU 内存消耗方面计算成本只占一小部分。
Feb, 2024
利用 Mamba SSM 和 MoE 相结合的新型架构 BlackMamba,在模型训练和推理 FLOPs 方面表现优秀,实现了 SSM 的线性复杂度生成和 MoE 快速高效推理的结合。
Feb, 2024
基于状态空间模型 (SSM) 成功在 NLP 任务中进行序列建模的启发,我们提出了具有全局建模和线性复杂度的 PointMamba 框架,通过重新排序策略提供更合理的几何扫描顺序来增强 SSM 的全局建模能力,实验证明我们的 PointMamba 在不同的点云分析数据集上胜过基于 transformer 的对应模型,同时节省了约 44.3% 的参数和 25% 的 FLOPs,展示了构建基础 3D 视觉模型的潜在选择,并为点云分析提供了新的视角。
Feb, 2024