重复之我见：变压器优于状态空间模型的复制

Feb, 2024

重复之我见：变压器优于状态空间模型的复制

Repeat After Me: Transformers are Better than State Space Models at Copying

Samy Jelassi, David Brandfonbrener, Sham M. Kakade, Eran Malach

TL;DR在这篇论文中，我们研究了使用不依赖于序列长度的固定大小的潜在状态的模型（我们将其称为 “广义状态空间模型”（GSSMs））与 transformer 模型在需要从输入上下文中进行复制的任务上的性能差异。我们从对简单的字符串复制任务的理论分析开始，并证明了一个二层 transformer 可以复制指数长度的字符串，而 GSSMs 因为固定大小的潜在状态而受到限制。在实证研究中，我们发现 transformers 在需要复制上下文的合成任务上效果优于 GSSMs，无论是在效率还是在泛化方面。最后，我们评估了预训练的大型语言模型，并发现 transformer 模型在复制和检索上下文信息的任务上远远胜过状态空间模型。综合这些结果表明，在实际任务中，transformers 与 GSSMs 之间存在着根本的差距。

Abstract

transformers are the dominant architecture for sequence modeling, but there is growing interest in models that use a fixed-size latent state that does not depend on the sequence length, which we refer to as "gene

transformers sequence modeling generalized state space models string copying pretrained large language models

发现论文，激发创造

状态空间模型中的状态幻觉

通过对比转换器架构的普遍存在的理论弱点，我们的分析揭示了状态空间模型在状态跟踪方面与转换器非常相似的表达能力的限制，这可能从根本上限制了它们解决现实世界状态跟踪问题的能力。

Apr, 2024

块状态变换器

本文介绍了一种名为 Block-State Transformer (BST) 的混合层，它在内部组合了用于长距离上下文建模的 SSM 子层和用于序列的短期表示的 Block Transformer 子层，并研究了三种完全可并行化的 SSM 和块状注意力的集成变体。我们证明了我们的模型在语言模型困惑度上胜过类似的基于 Transformer 的架构，并可以推广到更长的序列。另外，Block-State Transformer 在模型并行化时的层级速度比 Block-Recurrent Transformer 快了十倍以上。

Jun, 2023

门控状态空间实现的长序列语言模型

本论文介绍了一种基于门控状态空间（GSS）的自回归序列建模方法，该方法使用自注意力来建模局部依赖关系，从而能够有效地处理长距离依赖关系，且在英语书籍、Github 源代码和 ArXiv 数学文章上的实验表明，该方法训练速度明显快于传统方法并且具有零样本推广能力。

Jun, 2022

状态空间模型的表达能力：形式语言视角

基于线性状态空间模型的循环模型在语言建模方面表现出色，与变压器竞争力强，但对此类模型的原理能力了解甚少，因此我们提出了一项理论研究，比较了这种模型与变压器和传统循环神经网络的能力，发现它们有重叠但有区别的优势。

May, 2024

变压器是 SSM：通过结构化状态空间对偶实现的广义模型和高效算法

Transformers 与 state-space models（包括 Mamba）存在相关性，通过结构化半可分矩阵的各种分解，我们开发了一个理论连接的丰富框架，证明了这些模型家族之间的联系。基于我们的 state space duality（SSD）框架，我们设计了一种新的架构（Mamba-2），其核心层是 Mamba 的选择性 SSM 的改进，速度提高了 2-8 倍，同时继续与 Transformers 在语言建模方面竞争。

May, 2024

状态空间模型在估计具有动态平滑性的函数中与变压器可比

基于状态空间模型的深度神经网络在序列建模中引起了广泛关注，本文从估计序列到序列函数的角度出发，理论探讨了状态空间模型可以替代 Transformers 的任务范围，并证明了状态空间模型能够在特定类别的函数估计中取代 Transformers。

May, 2024

时态图上的状态空间模型：第一原理研究

本研究通过将结构信息整合到在线逼近目标中，采用拉普拉斯正则化项，将状态空间模型理论扩展到时间图，提出了 GraphSSM 框架，用于建模时间图的动态性，实验证明 GraphSSM 在各种时间图基准测试中的有效性。

Jun, 2024

用于新一代网络替代 Transformer 的状态空间模型：概述

在这篇论文中，我们首次全面回顾了 State Space Model（SSM）作为自注意力基础的 Transformer 模型的特性和优势，并提供了实验比较和分析。此外，我们还研究了 SSM 在自然语言处理和计算机视觉等多个领域的应用，并提出了未来研究的方向，希望能推动 SSM 在理论模型和应用方面的发展。

Apr, 2024

Mamba-360：状态空间模型作为长序列建模的 Transformer 替代方案调研：方法、应用和挑战

序列建模是跨多个领域的一个关键领域，包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上，循环神经网络（RNNs）和长短时记忆网络（LSTMs）在机器翻译、命名实体识别等序列建模任务中占主导地位，但转换器的进步改变了这一范式，因为其性能更优越。然而，转换器面临 O (N^2) 注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题，其中使用频谱网络或卷积在一些任务上表现良好，但仍然难以处理长序列。状态空间模型（SSMs）已经成为此背景下序列建模范式的有希望的可替代选择，特别是随着 S4 及其变种（如 S4nd、Hippo、Hyena、Diagnol State Spaces（DSS）、Gated State Spaces（GSS）、Linear Recurrent Unit（LRU）、Liquid-S4、Mamba 等）的出现。本综述将基于门控结构、结构体系和循环结构对基础 SSMs 进行分类，还重点介绍了 SSMs 在视觉、视频、音频、语音、语言（特别是长序列建模）、医疗（包括基因组学）、化学（如药物设计）、推荐系统和时间序列分析等领域的不同应用。此外，我们总结了 SSMs 在长序列竞技场（LRA）、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2 以及早餐、硬币、LVU 等各种时间序列数据集上的性能。有关 Mamba-360 工作的项目页面可在此网页上找到：https://github.com/badripatro/mamba360。

Apr, 2024

从泛化分析到状态空间模型的优化设计

本文研究了状态空间模型（SSM）的普适性，并提出基于普适性结果改进训练算法的方法。具体地，我们给出了一种依赖数据的 SSM 普适性界限，展示了 SSM 参数与训练序列的时间依赖性之间的相互作用。基于该普适性界限，我们（1）建立了一个基于提出的普适性度量的模型初始化缩放规则，显著提高了 SSM 对序列数据中不同时间模式的输出值尺度的稳健性；（2）引入了一种新的正则化方法来提高 SSM 的普适性性能。通过数值实验验证了我们的结果。

May, 2024