饥饿的河马:基于状态空间模型的语言建模
本文提出了一种带有特殊门控机制的多头状态空间(MH-SSM)架构,它可以作为多头注意力在转换器编码器中的替代品,在对于序列数据的处理中能够比转换器转录器更好地优化带来的结果,在 LibriSpeech 语音识别数据集上提高了性能。同时,我们将 MH-SSMs 层与转换器块相结合,成为 Stateformer,且无需使用外部语言模型,在 LibriSpeech 任务中实现了最先进的性能,其开发和测试集上的字错率分别为 1.76%/4.37%和 1.91%/4.36%。
May, 2023
基于 Transformer 架构的基础模型凭借其核心注意力模块,驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理,并对此进行了改进,通过让结构状态空间模型(SSMs)参数成为输入的函数来解决离散模态的弱点,该模型在长度可选的维度上选择性地传播或遗忘信息,并且通过在递归模式下设计一种硬件感知并行算法,将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型(Mamba)具有快速推断速度(比 Transformers 快 5 倍)和序列长度的线性扩展,并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持,Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中,我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers,与其两倍大小的模型性能相当。
Dec, 2023
本文介绍了一种名为 Block-State Transformer (BST) 的混合层,它在内部组合了用于长距离上下文建模的 SSM 子层和用于序列的短期表示的 Block Transformer 子层,并研究了三种完全可并行化的 SSM 和块状注意力的集成变体。我们证明了我们的模型在语言模型困惑度上胜过类似的基于 Transformer 的架构,并可以推广到更长的序列。另外,Block-State Transformer 在模型并行化时的层级速度比 Block-Recurrent Transformer 快了十倍以上。
Jun, 2023
在这篇论文中,我们首次全面回顾了 State Space Model(SSM)作为自注意力基础的 Transformer 模型的特性和优势,并提供了实验比较和分析。此外,我们还研究了 SSM 在自然语言处理和计算机视觉等多个领域的应用,并提出了未来研究的方向,希望能推动 SSM 在理论模型和应用方面的发展。
Apr, 2024
序列建模是跨多个领域的一个关键领域,包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上,循环神经网络(RNNs)和长短时记忆网络(LSTMs)在机器翻译、命名实体识别等序列建模任务中占主导地位,但转换器的进步改变了这一范式,因为其性能更优越。然而,转换器面临 O (N^2) 注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题,其中使用频谱网络或卷积在一些任务上表现良好,但仍然难以处理长序列。状态空间模型(SSMs)已经成为此背景下序列建模范式的有希望的可替代选择,特别是随着 S4 及其变种(如 S4nd、Hippo、Hyena、Diagnol State Spaces(DSS)、Gated State Spaces(GSS)、Linear Recurrent Unit(LRU)、Liquid-S4、Mamba 等)的出现。本综述将基于门控结构、结构体系和循环结构对基础 SSMs 进行分类,还重点介绍了 SSMs 在视觉、视频、音频、语音、语言(特别是长序列建模)、医疗(包括基因组学)、化学(如药物设计)、推荐系统和时间序列分析等领域的不同应用。此外,我们总结了 SSMs 在长序列竞技场(LRA)、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2 以及早餐、硬币、LVU 等各种时间序列数据集上的性能。有关 Mamba-360 工作的项目页面可在此网页上找到:https://github.com/badripatro/mamba360。
Apr, 2024
Transformers 与 state-space models(包括 Mamba)存在相关性,通过结构化半可分矩阵的各种分解,我们开发了一个理论连接的丰富框架,证明了这些模型家族之间的联系。基于我们的 state space duality(SSD)框架,我们设计了一种新的架构(Mamba-2),其核心层是 Mamba 的选择性 SSM 的改进,速度提高了 2-8 倍,同时继续与 Transformers 在语言建模方面竞争。
May, 2024
ConvSSMs combine ConvLSTM and state space methods to efficiently model long spatiotemporal sequences, outperforming Transformers and ConvLSTM in terms of training speed and sample generation while matching or exceeding state-of-the-art methods on various benchmarks.
Oct, 2023
通过对比转换器架构的普遍存在的理论弱点,我们的分析揭示了状态空间模型在状态跟踪方面与转换器非常相似的表达能力的限制,这可能从根本上限制了它们解决现实世界状态跟踪问题的能力。
Apr, 2024
Samba 是一种简单的混合架构,使用 Mamba(一种选择性状态空间模型)与滑动窗口注意力机制(SWA)相结合,以有效地建模具有无限上下文长度的序列,并实现了完美的内存回忆。
Jun, 2024
基于线性状态空间模型的循环模型在语言建模方面表现出色,与变压器竞争力强,但对此类模型的原理能力了解甚少,因此我们提出了一项理论研究,比较了这种模型与变压器和传统循环神经网络的能力,发现它们有重叠但有区别的优势。
May, 2024