门控状态空间实现的长序列语言模型

Jun, 2022

门控状态空间实现的长序列语言模型

Long Range Language Modeling via Gated State Spaces

Harsh Mehta, Ankit Gupta, Ashok Cutkosky, Behnam Neyshabur

TL;DR本论文介绍了一种基于门控状态空间（GSS）的自回归序列建模方法，该方法使用自注意力来建模局部依赖关系，从而能够有效地处理长距离依赖关系，且在英语书籍、Github 源代码和 ArXiv 数学文章上的实验表明，该方法训练速度明显快于传统方法并且具有零样本推广能力。

Abstract

state space models have shown to be effective at modeling long range dependencies, specially on sequence classification tasks. In this work we focus on autoregressive sequence modeling over English books, Github

state space models autoregressive sequence modeling gated activation functions self-attention long range dependencies

发现论文，激发创造

利用结构化状态空间高效建模长序列

提出了一种结构化状态空间序列模型（S4），它在处理长依赖序列数据方面与传统模型相比有着更好的结果，通过调整状态矩阵可以将模型计算复杂度降低，达到了 SOTA 水平。

Oct, 2021

对角状态空间与结构状态空间同样有效

本研究旨在探索长序列数据中的长程依赖性，评估 S4 和 DSS 模型在多种模态下的性能提升，并针对包括 Long Range Arena 任务和语音分类在内的不同任务进行了性能测试。结果表明，在某些任务上 DSS 模型的表现可媲美 S4 模型，且实现方式更为直接简单。

Mar, 2022

时态图上的状态空间模型：第一原理研究

本研究通过将结构信息整合到在线逼近目标中，采用拉普拉斯正则化项，将状态空间模型理论扩展到时间图，提出了 GraphSSM 框架，用于建模时间图的动态性，实验证明 GraphSSM 在各种时间图基准测试中的有效性。

Jun, 2024

深度选择状态空间模型的理论基础

基于 Rough Path Theory，本研究证明了具备选择性机制的随机线性递归在输入控制条件下可产生低维投射的隐藏状态，并阐述了现代选择性状态空间模型的成功和未来 SSM 变体的表达能力。

Feb, 2024

从状态空间模型中，我们能在图机器学习上学到什么？

提出了一种名为 Graph State Space Convolution (GSSC) 的方法，该方法是 State Space Models (SSMs) 在图结构数据上的扩展，通过利用全局置换等变集合聚合和以节点之间的相对距离作为卷积核的可分解图卷积核，保留了 SSMs 的三个优点。实验证明 GSSC 在计算图子结构和十个常用基准数据集的表现上比 Message Passing Neural Networks (MPNNs) 更加表达能力强，且在 7 个数据集上取得了最佳结果，在其他 3 个数据集上也有显著提升。该研究结果突出了 GSSC 作为一种强大且可扩展的图机器学习模型的潜力。

Jun, 2024

语音识别的多头状态空间模型

本文提出了一种带有特殊门控机制的多头状态空间（MH-SSM）架构，它可以作为多头注意力在转换器编码器中的替代品，在对于序列数据的处理中能够比转换器转录器更好地优化带来的结果，在 LibriSpeech 语音识别数据集上提高了性能。同时，我们将 MH-SSMs 层与转换器块相结合，成为 Stateformer，且无需使用外部语言模型，在 LibriSpeech 任务中实现了最先进的性能，其开发和测试集上的字错率分别为 1.76％/4.37％和 1.91％/4.36％。

May, 2023

Mamba-360：状态空间模型作为长序列建模的 Transformer 替代方案调研：方法、应用和挑战

序列建模是跨多个领域的一个关键领域，包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上，循环神经网络（RNNs）和长短时记忆网络（LSTMs）在机器翻译、命名实体识别等序列建模任务中占主导地位，但转换器的进步改变了这一范式，因为其性能更优越。然而，转换器面临 O (N^2) 注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题，其中使用频谱网络或卷积在一些任务上表现良好，但仍然难以处理长序列。状态空间模型（SSMs）已经成为此背景下序列建模范式的有希望的可替代选择，特别是随着 S4 及其变种（如 S4nd、Hippo、Hyena、Diagnol State Spaces（DSS）、Gated State Spaces（GSS）、Linear Recurrent Unit（LRU）、Liquid-S4、Mamba 等）的出现。本综述将基于门控结构、结构体系和循环结构对基础 SSMs 进行分类，还重点介绍了 SSMs 在视觉、视频、音频、语音、语言（特别是长序列建模）、医疗（包括基因组学）、化学（如药物设计）、推荐系统和时间序列分析等领域的不同应用。此外，我们总结了 SSMs 在长序列竞技场（LRA）、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2 以及早餐、硬币、LVU 等各种时间序列数据集上的性能。有关 Mamba-360 工作的项目页面可在此网页上找到：https://github.com/badripatro/mamba360。

Apr, 2024

卷积状态空间模型用于长程时空建模

ConvSSMs combine ConvLSTM and state space methods to efficiently model long spatiotemporal sequences, outperforming Transformers and ConvLSTM in terms of training speed and sample generation while matching or exceeding state-of-the-art methods on various benchmarks.

Oct, 2023

利用简单的离散状态空间有效建模时间序列

提出了一种名为 SpaceTime 的新型状态空间时间序列体系结构，其通过一种新的 SSM 参数化基于伴随矩阵来提高表现力，并引入一个 “闭环” 变化的伴随 SSM，使其能够生成自己的逐层输入进行长期预测，同时通过算法实现前向传递的内存和计算效率提高，并在大量不同的基准测试中取得最先进的结果。

Mar, 2023

重复之我见：变压器优于状态空间模型的复制

在这篇论文中，我们研究了使用不依赖于序列长度的固定大小的潜在状态的模型（我们将其称为 “广义状态空间模型”（GSSMs））与 transformer 模型在需要从输入上下文中进行复制的任务上的性能差异。我们从对简单的字符串复制任务的理论分析开始，并证明了一个二层 transformer 可以复制指数长度的字符串，而 GSSMs 因为固定大小的潜在状态而受到限制。在实证研究中，我们发现 transformers 在需要复制上下文的合成任务上效果优于 GSSMs，无论是在效率还是在泛化方面。最后，我们评估了预训练的大型语言模型，并发现 transformer 模型在复制和检索上下文信息的任务上远远胜过状态空间模型。综合这些结果表明，在实际任务中，transformers 与 GSSMs 之间存在着根本的差距。

Feb, 2024