利用结构化状态空间高效建模长序列

ICLROct, 2021

利用结构化状态空间高效建模长序列

Efficiently Modeling Long Sequences with Structured State Spaces

Albert Gu, Karan Goel, Christopher Ré

TL;DR提出了一种结构化状态空间序列模型（S4），它在处理长依赖序列数据方面与传统模型相比有着更好的结果，通过调整状态矩阵可以将模型计算复杂度降低，达到了 SOTA 水平。

Abstract

A central goal of sequence modeling is designing a single principled model that can address sequence data across a range of modalities and tasks, particularly on long-range dependencies. Although conventional mod

sequence modeling state space model structured state space long-range dependencies benchmark

发现论文，激发创造

Mamba-360：状态空间模型作为长序列建模的 Transformer 替代方案调研：方法、应用和挑战

序列建模是跨多个领域的一个关键领域，包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上，循环神经网络（RNNs）和长短时记忆网络（LSTMs）在机器翻译、命名实体识别等序列建模任务中占主导地位，但转换器的进步改变了这一范式，因为其性能更优越。然而，转换器面临 O (N^2) 注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题，其中使用频谱网络或卷积在一些任务上表现良好，但仍然难以处理长序列。状态空间模型（SSMs）已经成为此背景下序列建模范式的有希望的可替代选择，特别是随着 S4 及其变种（如 S4nd、Hippo、Hyena、Diagnol State Spaces（DSS）、Gated State Spaces（GSS）、Linear Recurrent Unit（LRU）、Liquid-S4、Mamba 等）的出现。本综述将基于门控结构、结构体系和循环结构对基础 SSMs 进行分类，还重点介绍了 SSMs 在视觉、视频、音频、语音、语言（特别是长序列建模）、医疗（包括基因组学）、化学（如药物设计）、推荐系统和时间序列分析等领域的不同应用。此外，我们总结了 SSMs 在长序列竞技场（LRA）、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2 以及早餐、硬币、LVU 等各种时间序列数据集上的性能。有关 Mamba-360 工作的项目页面可在此网页上找到：https://github.com/badripatro/mamba360。

Apr, 2024

卷积状态空间模型用于长程时空建模

ConvSSMs combine ConvLSTM and state space methods to efficiently model long spatiotemporal sequences, outperforming Transformers and ConvLSTM in terms of training speed and sample generation while matching or exceeding state-of-the-art methods on various benchmarks.

Oct, 2023

对角状态空间与结构状态空间同样有效

本研究旨在探索长序列数据中的长程依赖性，评估 S4 和 DSS 模型在多种模态下的性能提升，并针对包括 Long Range Arena 任务和语音分类在内的不同任务进行了性能测试。结果表明，在某些任务上 DSS 模型的表现可媲美 S4 模型，且实现方式更为直接简单。

Mar, 2022

时态图上的状态空间模型：第一原理研究

本研究通过将结构信息整合到在线逼近目标中，采用拉普拉斯正则化项，将状态空间模型理论扩展到时间图，提出了 GraphSSM 框架，用于建模时间图的动态性，实验证明 GraphSSM 在各种时间图基准测试中的有效性。

Jun, 2024

利用简单的离散状态空间有效建模时间序列

提出了一种名为 SpaceTime 的新型状态空间时间序列体系结构，其通过一种新的 SSM 参数化基于伴随矩阵来提高表现力，并引入一个 “闭环” 变化的伴随 SSM，使其能够生成自己的逐层输入进行长期预测，同时通过算法实现前向传递的内存和计算效率提高，并在大量不同的基准测试中取得最先进的结果。

Mar, 2023

门控状态空间实现的长序列语言模型

本论文介绍了一种基于门控状态空间（GSS）的自回归序列建模方法，该方法使用自注意力来建模局部依赖关系，从而能够有效地处理长距离依赖关系，且在英语书籍、Github 源代码和 ArXiv 数学文章上的实验表明，该方法训练速度明显快于传统方法并且具有零样本推广能力。

Jun, 2022

长序列处理中的状态空间建模：对 Transformer 时代中的循环的调查

对基于循环模型的顺序数据处理的最新方法进行了深入总结，并提供了关于体系结构和算法解决方案的完整分类，引导研究者在这一吸引人的研究领域进行进一步研究。

Jun, 2024

为长形视频理解选择性结构状态空间

本论文提出了一种轻量级掩膜生成器的技术，采用长短掩膜对 S4 模型进行改进，从而更有效、准确地模拟视频中的长期时空依赖关系，并在三个数据集上均取得了比之前最先进的 S4 模型更高的准确性，降低了 23％的内存占用。

Mar, 2023

在脉冲神经网络中学习长序列

通过与时空模型的交叉研究，本文探索了脉冲神经网络在长范围序列建模方面的潜力，并证明其在各种任务和图像分类方面均优于当前最先进的神经网络模型，为在神经形态学硬件上实现高效能耗的长范围序列建模奠定了基础。

Dec, 2023

使用对角线线性递归神经网络简化和理解状态空间模型

本文主要介绍了一种基于线性状态空间的序列模型，使用 vanilla Diagonal Linear RNNs 构建模型，并比较了该模型与 SSMs 以及 attention-based models 的表现。作者在 13 个合成序列任务中分析了不同模型的表现，结果表明该模型在一些高阶推理任务上表现良好。

Dec, 2022