饥饿的河马：基于状态空间模型的语言建模

ICLRDec, 2022

饥饿的河马：基于状态空间模型的语言建模

Hungry Hungry Hippos: Towards Language Modeling with State Space Models

Tri Dao, Daniel Y. Fu, Khaled K. Saab, Armin W. Thomas, Atri Rudra...

TL;DR通过使用合成语言建模任务，我们提出了一种新的 H3 SSM 层来弥补 SSMs 与注意力模型之间的表达能力差距，并引入 FlashConv 来提高模型在现代硬件上的训练效率并在 SuperGLUE 基准测试中优于 Transformers。

Abstract

state space models (SSMs) have demonstrated state-of-the-art sequence modeling performance in some modalities, but underperform attention in language modeling. Moreover, despite scaling nearly linearly in sequenc

state space models language modeling attention flashconv superglue

发现论文，激发创造

语音识别的多头状态空间模型

本文提出了一种带有特殊门控机制的多头状态空间（MH-SSM）架构，它可以作为多头注意力在转换器编码器中的替代品，在对于序列数据的处理中能够比转换器转录器更好地优化带来的结果，在 LibriSpeech 语音识别数据集上提高了性能。同时，我们将 MH-SSMs 层与转换器块相结合，成为 Stateformer，且无需使用外部语言模型，在 LibriSpeech 任务中实现了最先进的性能，其开发和测试集上的字错率分别为 1.76％/4.37％和 1.91％/4.36％。

May, 2023

Mamba：具有选择性状态空间的线性时间序列建模

基于 Transformer 架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比 Transformers 快 5 倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers，与其两倍大小的模型性能相当。

Dec, 2023

块状态变换器

本文介绍了一种名为 Block-State Transformer (BST) 的混合层，它在内部组合了用于长距离上下文建模的 SSM 子层和用于序列的短期表示的 Block Transformer 子层，并研究了三种完全可并行化的 SSM 和块状注意力的集成变体。我们证明了我们的模型在语言模型困惑度上胜过类似的基于 Transformer 的架构，并可以推广到更长的序列。另外，Block-State Transformer 在模型并行化时的层级速度比 Block-Recurrent Transformer 快了十倍以上。

Jun, 2023

用于新一代网络替代 Transformer 的状态空间模型：概述

在这篇论文中，我们首次全面回顾了 State Space Model（SSM）作为自注意力基础的 Transformer 模型的特性和优势，并提供了实验比较和分析。此外，我们还研究了 SSM 在自然语言处理和计算机视觉等多个领域的应用，并提出了未来研究的方向，希望能推动 SSM 在理论模型和应用方面的发展。

Apr, 2024

Mamba-360：状态空间模型作为长序列建模的 Transformer 替代方案调研：方法、应用和挑战

序列建模是跨多个领域的一个关键领域，包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上，循环神经网络（RNNs）和长短时记忆网络（LSTMs）在机器翻译、命名实体识别等序列建模任务中占主导地位，但转换器的进步改变了这一范式，因为其性能更优越。然而，转换器面临 O (N^2) 注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题，其中使用频谱网络或卷积在一些任务上表现良好，但仍然难以处理长序列。状态空间模型（SSMs）已经成为此背景下序列建模范式的有希望的可替代选择，特别是随着 S4 及其变种（如 S4nd、Hippo、Hyena、Diagnol State Spaces（DSS）、Gated State Spaces（GSS）、Linear Recurrent Unit（LRU）、Liquid-S4、Mamba 等）的出现。本综述将基于门控结构、结构体系和循环结构对基础 SSMs 进行分类，还重点介绍了 SSMs 在视觉、视频、音频、语音、语言（特别是长序列建模）、医疗（包括基因组学）、化学（如药物设计）、推荐系统和时间序列分析等领域的不同应用。此外，我们总结了 SSMs 在长序列竞技场（LRA）、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2 以及早餐、硬币、LVU 等各种时间序列数据集上的性能。有关 Mamba-360 工作的项目页面可在此网页上找到：https://github.com/badripatro/mamba360。

Apr, 2024

变压器是 SSM：通过结构化状态空间对偶实现的广义模型和高效算法

Transformers 与 state-space models（包括 Mamba）存在相关性，通过结构化半可分矩阵的各种分解，我们开发了一个理论连接的丰富框架，证明了这些模型家族之间的联系。基于我们的 state space duality（SSD）框架，我们设计了一种新的架构（Mamba-2），其核心层是 Mamba 的选择性 SSM 的改进，速度提高了 2-8 倍，同时继续与 Transformers 在语言建模方面竞争。

May, 2024

卷积状态空间模型用于长程时空建模

ConvSSMs combine ConvLSTM and state space methods to efficiently model long spatiotemporal sequences, outperforming Transformers and ConvLSTM in terms of training speed and sample generation while matching or exceeding state-of-the-art methods on various benchmarks.

Oct, 2023

状态空间模型中的状态幻觉

通过对比转换器架构的普遍存在的理论弱点，我们的分析揭示了状态空间模型在状态跟踪方面与转换器非常相似的表达能力的限制，这可能从根本上限制了它们解决现实世界状态跟踪问题的能力。

Apr, 2024

Samba：高效无限上下文语言建模的简单混合状态空间模型

Samba 是一种简单的混合架构，使用 Mamba（一种选择性状态空间模型）与滑动窗口注意力机制（SWA）相结合，以有效地建模具有无限上下文长度的序列，并实现了完美的内存回忆。

Jun, 2024

状态空间模型的表达能力：形式语言视角

基于线性状态空间模型的循环模型在语言建模方面表现出色，与变压器竞争力强，但对此类模型的原理能力了解甚少，因此我们提出了一项理论研究，比较了这种模型与变压器和传统循环神经网络的能力，发现它们有重叠但有区别的优势。

May, 2024