液体结构状态空间模型

Sep, 2022

Liquid Structural State-Space Models

Ramin Hasani, Mathias Lechner, Tsun-Hsuan Wang, Makram Chahine, Alexander Amini...

TL;DR本文介绍了一种新的状态空间结构 Liquid-S4 ，它可以通过对状态转移矩阵的对角线及低秩分解进一步提高序列建模任务的表现，达到了 Long-Range Arena 基准测试的最新水平，并在 Speech Command 识别数据集上实现了 96.78% 的精度。

Abstract

A proper parametrization of state transition matrices of linear state-space models (SSMs) followed by standard nonlinearities enables them to efficiently learn representations from sequential data, establishing the state-of-the-art on a large series of long-range sequence modeling benc

state-space model neural networks sequence modeling long-range arena benchmark liquid-s4

发现论文，激发创造

液态时间常数网络

该研究介绍了一类新的连续时间循环神经网络模型，采用非线性互联门来调制线性一阶动力系统的网络。这些神经网络表现出稳定和有界的行为，具有优秀的表达能力，可以更好地应对时间序列预测任务。

Jun, 2020

时态图上的状态空间模型：第一原理研究

本研究通过将结构信息整合到在线逼近目标中，采用拉普拉斯正则化项，将状态空间模型理论扩展到时间图，提出了 GraphSSM 框架，用于建模时间图的动态性，实验证明 GraphSSM 在各种时间图基准测试中的有效性。

Jun, 2024

利用结构化状态空间高效建模长序列

提出了一种结构化状态空间序列模型（S4），它在处理长依赖序列数据方面与传统模型相比有着更好的结果，通过调整状态矩阵可以将模型计算复杂度降低，达到了 SOTA 水平。

Oct, 2021

对角状态空间与结构状态空间同样有效

本研究旨在探索长序列数据中的长程依赖性，评估 S4 和 DSS 模型在多种模态下的性能提升，并针对包括 Long Range Arena 任务和语音分类在内的不同任务进行了性能测试。结果表明，在某些任务上 DSS 模型的表现可媲美 S4 模型，且实现方式更为直接简单。

Mar, 2022

将循环、卷积、连续时间模型与线性状态空间层相结合

本研究将控制系统应用于序列建模，提出了简单的序列模型 LSSL，并通过引入连续时间记忆的结构矩阵来提高模型性能，使用 LSSL 优于其他深度学习模型并在时间序列等领域取得了优秀成果。

Oct, 2021

线性动力学嵌入神经网络用于长序列建模

长序列建模中性能和计算效率之间的权衡成为现有模型的瓶颈，本文基于控制理论中具有多输入和多输出的连续状态空间模型（SSMs），提出了一种新型神经网络，称为线性动力学嵌入神经网络（LDNN）。通过对角化和解耦然后快速傅里叶变换（FFT）的两种高效策略，将卷积的时间复杂度从 O (LNHmax {L, N}) 降低到 O (LNmax {H, log L})，实现了 LDNN 在长序列任务中的少参数、灵活推断和高效训练。我们通过双向非因果和多头设置进一步改进了 LDNN，以适应更广泛的应用领域。对长距离竞技场（LRA）进行了大量实验证明了 LDNN 的有效性和最先进的性能。

Feb, 2024

为长形视频理解选择性结构状态空间

本论文提出了一种轻量级掩膜生成器的技术，采用长短掩膜对 S4 模型进行改进，从而更有效、准确地模拟视频中的长期时空依赖关系，并在三个数据集上均取得了比之前最先进的 S4 模型更高的准确性，降低了 23％的内存占用。

Mar, 2023

利用简单的离散状态空间有效建模时间序列

提出了一种名为 SpaceTime 的新型状态空间时间序列体系结构，其通过一种新的 SSM 参数化基于伴随矩阵来提高表现力，并引入一个 “闭环” 变化的伴随 SSM，使其能够生成自己的逐层输入进行长期预测，同时通过算法实现前向传递的内存和计算效率提高，并在大量不同的基准测试中取得最先进的结果。

Mar, 2023

Mamba-360：状态空间模型作为长序列建模的 Transformer 替代方案调研：方法、应用和挑战

序列建模是跨多个领域的一个关键领域，包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上，循环神经网络（RNNs）和长短时记忆网络（LSTMs）在机器翻译、命名实体识别等序列建模任务中占主导地位，但转换器的进步改变了这一范式，因为其性能更优越。然而，转换器面临 O (N^2) 注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题，其中使用频谱网络或卷积在一些任务上表现良好，但仍然难以处理长序列。状态空间模型（SSMs）已经成为此背景下序列建模范式的有希望的可替代选择，特别是随着 S4 及其变种（如 S4nd、Hippo、Hyena、Diagnol State Spaces（DSS）、Gated State Spaces（GSS）、Linear Recurrent Unit（LRU）、Liquid-S4、Mamba 等）的出现。本综述将基于门控结构、结构体系和循环结构对基础 SSMs 进行分类，还重点介绍了 SSMs 在视觉、视频、音频、语音、语言（特别是长序列建模）、医疗（包括基因组学）、化学（如药物设计）、推荐系统和时间序列分析等领域的不同应用。此外，我们总结了 SSMs 在长序列竞技场（LRA）、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2 以及早餐、硬币、LVU 等各种时间序列数据集上的性能。有关 Mamba-360 工作的项目页面可在此网页上找到：https://github.com/badripatro/mamba360。

Apr, 2024

使用对角线线性递归神经网络简化和理解状态空间模型

本文主要介绍了一种基于线性状态空间的序列模型，使用 vanilla Diagonal Linear RNNs 构建模型，并比较了该模型与 SSMs 以及 attention-based models 的表现。作者在 13 个合成序列任务中分析了不同模型的表现，结果表明该模型在一些高阶推理任务上表现良好。

Dec, 2022