通过分组FIR滤波和注意力泄漏机制增强的结构化状态空间模型
提出了一种结构化状态空间序列模型(S4),它在处理长依赖序列数据方面与传统模型相比有着更好的结果,通过调整状态矩阵可以将模型计算复杂度降低,达到了SOTA水平。
Oct, 2021
介绍了基于深度学习、HiPPO 形式和线性状态空间模型的结构化状态空间序列(S4)层,以及在其基础上引入了一种新的状态空间层——S5 层。与 S4 层使用多个独立的 SSM 相比,S5 层使用一个多输入、多输出的 SSM,从而实现了更高的计算效率和性能。S5 在长距离序列建模任务上达到了最新的最高性能,并使最难的 Path-X 任务的准确率达到了 98.5%。
Aug, 2022
通过使用合成语言建模任务,我们提出了一种新的 H3 SSM 层来弥补 SSMs 与注意力模型之间的表达能力差距,并引入 FlashConv 来提高模型在现代硬件上的训练效率并在 SuperGLUE 基准测试中优于 Transformers。
Dec, 2022
本文介绍了一种名为 Block-State Transformer (BST) 的混合层,它在内部组合了用于长距离上下文建模的 SSM 子层和用于序列的短期表示的 Block Transformer 子层,并研究了三种完全可并行化的 SSM 和块状注意力的集成变体。我们证明了我们的模型在语言模型困惑度上胜过类似的基于 Transformer 的架构,并可以推广到更长的序列。另外,Block-State Transformer 在模型并行化时的层级速度比 Block-Recurrent Transformer 快了十倍以上。
Jun, 2023
基于Transformer架构的基础模型凭借其核心注意力模块,驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理,并对此进行了改进,通过让结构状态空间模型(SSMs)参数成为输入的函数来解决离散模态的弱点,该模型在长度可选的维度上选择性地传播或遗忘信息,并且通过在递归模式下设计一种硬件感知并行算法,将这些选择性SSMs集成到简化的端到端神经网络架构中。该模型(Mamba)具有快速推断速度(比Transformers快5倍)和序列长度的线性扩展,并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持,Mamba在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中,我们的Mamba-3B模型在预训练和下游评估中均优于同样大小的Transformers,与其两倍大小的模型性能相当。
Dec, 2023
序列建模是跨多个领域的一个关键领域,包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上,循环神经网络(RNNs)和长短时记忆网络(LSTMs)在机器翻译、命名实体识别等序列建模任务中占主导地位,但转换器的进步改变了这一范式,因为其性能更优越。然而,转换器面临O(N^2)注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题,其中使用频谱网络或卷积在一些任务上表现良好,但仍然难以处理长序列。状态空间模型(SSMs)已经成为此背景下序列建模范式的有希望的可替代选择,特别是随着S4及其变种(如S4nd、Hippo、Hyena、Diagnol State Spaces(DSS)、Gated State Spaces(GSS)、Linear Recurrent Unit(LRU)、Liquid-S4、Mamba等)的出现。本综述将基于门控结构、结构体系和循环结构对基础SSMs进行分类,还重点介绍了SSMs在视觉、视频、音频、语音、语言(特别是长序列建模)、医疗(包括基因组学)、化学(如药物设计)、推荐系统和时间序列分析等领域的不同应用。此外,我们总结了SSMs在长序列竞技场(LRA)、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2以及早餐、硬币、LVU等各种时间序列数据集上的性能。有关Mamba-360工作的项目页面可在此网页上找到:https://github.com/badripatro/mamba360。
Apr, 2024
Transformers与state-space models(包括Mamba)存在相关性,通过结构化半可分矩阵的各种分解,我们开发了一个理论连接的丰富框架,证明了这些模型家族之间的联系。基于我们的state space duality(SSD)框架,我们设计了一种新的架构(Mamba-2),其核心层是Mamba的选择性SSM的改进,速度提高了2-8倍,同时继续与Transformers在语言建模方面竞争。
May, 2024
选择性状态空间模型(SSMs)如Mamba克服了Transformer的一些缺点,例如与序列长度呈二次增长的计算复杂度和从键值缓存中获取大量的推理时间内存需求。此外,最近的研究显示,SSMs可以达到或超越Transformer的语言建模能力,使其成为一种有吸引力的替代选择。然而,迄今为止的研究只在相同数据的受控环境中进行了小规模实验,比较了SSMs和Transformers。为了了解这些体系结构在更大规模上的优缺点,我们在相同数据集上直接比较了8B参数的Mamba、Mamba-2和Transformer模型,数据集涵盖了多达3.5T个标记。我们还将这些模型与由43%的Mamba-2、7%的注意力和50%的MLP层(Mamba-2-Hybrid)组成的混合体系结构进行了比较。通过使用多种任务,我们回答了Mamba模型是否能在较大的训练预算下与Transformers相匹配的问题。我们的结果表明,纯SSMs在许多任务上达到或超越了Transformers,但在需要强大的复制或上下文学习能力(例如,5-shot MMLU、电话簿)或长期推理的任务上,它们落后于Transformers。相反,我们发现8B的Mamba-2-Hybrid在我们评估的所有12个标准任务上超过了8B Transformer(平均增加2.65个点),并且在生成推理标记时预计速度最多快8倍。为了验证长期上下文能力,我们进行了其他实验,评估了支持16K、32K和128K序列的Mamba-2-Hybrid和Transformer的变体。在23个额外的长期上下文任务中,混合模型在平均水平上继续紧密匹配或超越了Transformer。为了进一步的研究,我们将检查点以及用于训练我们的模型的代码作为NVIDIA的Megatron-LM项目的一部分发布。
Jun, 2024
对基于循环模型的顺序数据处理的最新方法进行了深入总结,并提供了关于体系结构和算法解决方案的完整分类,引导研究者在这一吸引人的研究领域进行进一步研究。
Jun, 2024
本文针对现有变压器模型在推理时的二次时间复杂度问题,提出了一种新的提炼方法。该方法通过将变压器与状态空间模型视作不同的混合矩阵应用,在多层次上逐步提炼变压器架构,最终实现了基于Phi-1.5架构的Mamba-2变体的惊人性能表现。此研究表明,状态空间模型可以有效利用变压器训练过程中投入的计算资源,开启了新型模型构建的可能性。
Aug, 2024