关于对角状态空间模型的参数化和初始化

Jun, 2022

关于对角状态空间模型的参数化和初始化

On the Parameterization and Initialization of Diagonal State Space Models

Albert Gu, Ankit Gupta, Karan Goel, Christopher Ré

TL;DR本文提出了一种简单的 S4 模型的对角变体 S4D，通过限制状态矩阵为全对角可保持原模型性能而又易于实现。

Abstract

state space models (SSM) have recently been shown to be very effective as a deep learning layer as a promising alternative to sequence models such as RNNs, CNNs, or Transformers. The first version to show this potential was the S4 model, which is particularly effective on tasks involvi

state space models dss parameterization performance s4d

发现论文，激发创造

通过近似对角化为长序列的状态空间模型提高鲁棒性

在这篇论文中，我们提出了一个用于解决机器学习中的病态对角化问题的通用、稳定的 “扰动 - 然后对角化” (PTD) 方法，并基于此方法引入了 S4-PTD 和 S5-PTD 模型。通过对不同初始化方案的传递函数进行理论分析，我们证明了 S4-PTD/S5-PTD 初始化可以强大地收敛于 HiPPO 框架，而 S4D/S5 初始化只能实现弱收敛。因此，我们的新模型对傅里叶模式噪声扰动输入表现出了鲁棒性，这是 S4D/S5 模型所无法达到的重要特性。此外，我们的 S5-PTD 模型在 Long-Range Arena 基准上平均达到 87.6% 的准确率，证明了 PTD 方法在提升深度学习模型的准确性方面起到了积极作用。

Oct, 2023

对角状态空间与结构状态空间同样有效

本研究旨在探索长序列数据中的长程依赖性，评估 S4 和 DSS 模型在多种模态下的性能提升，并针对包括 Long Range Arena 任务和语音分类在内的不同任务进行了性能测试。结果表明，在某些任务上 DSS 模型的表现可媲美 S4 模型，且实现方式更为直接简单。

Mar, 2022

如何训练你的最高支付官员：广义正交基投影下的状态空间模型

通过对 HiPPO 框架的一般化和直观表述，我们可以使用指数变形的 Legendre 多项式的分解，解释 S4 模型成功捕捉长范围依赖的能力，并改进 S4 的性能，达到 Long Range Arena 基准测试的 86％，路径部分（Path-X task）达到了 96％。

Jun, 2022

使用平衡截断的对角状态空间层学习方法

我们引入了一种新颖的学习方法，用于处理边缘智能应用中的长序列数据，包括传感器数据分析和实时分析，并在结构化状态空间序列模型中引入了对角状态空间层。该方法利用控制理论中常见的平衡截断技术，特别应用于对角状态空间层，以减少推理过程中的计算开销。通过利用减少模型的参数，我们改进了 S4 模型的初始化过程，在性能方面优于广泛使用的 Skew-HiPPo 初始化方法。数值实验表明，使用对角状态空间层训练的 S4 模型在准确度和效率指标上超过了传统训练的模型。此外，我们的观察结果显示了一个正向相关性：原始模型的准确度越高，使用我们的方法训练的模型的准确度也越高，这表明我们的方法有效地利用了原始模型的优势。

Feb, 2024

使用对角线线性递归神经网络简化和理解状态空间模型

本文主要介绍了一种基于线性状态空间的序列模型，使用 vanilla Diagonal Linear RNNs 构建模型，并比较了该模型与 SSMs 以及 attention-based models 的表现。作者在 13 个合成序列任务中分析了不同模型的表现，结果表明该模型在一些高阶推理任务上表现良好。

Dec, 2022

序列建模的简化状态空间层

介绍了基于深度学习、HiPPO 形式和线性状态空间模型的结构化状态空间序列（S4）层，以及在其基础上引入了一种新的状态空间层 ——S5 层。与 S4 层使用多个独立的 SSM 相比，S5 层使用一个多输入、多输出的 SSM，从而实现了更高的计算效率和性能。S5 在长距离序列建模任务上达到了最新的最高性能，并使最难的 Path-X 任务的准确率达到了 98.5%。

Aug, 2022

避免使用 HiPPOs 的长记忆状态空间模型之希望

通过使用 Hankel 算子理论，我们开发了一种名为 HOPE 的新的 LTI 系统参数化方案，使得状态空间模型能够进行随机初始化、提高训练稳定性，并具有非衰减的记忆能力，相比传统的模型，参数更少，并在长序列任务中表现出更好的性能，同时我们通过应用序贯 CIFAR-10 任务验证了我们模型的长时记忆能力。

May, 2024

利用结构化状态空间高效建模长序列

提出了一种结构化状态空间序列模型（S4），它在处理长依赖序列数据方面与传统模型相比有着更好的结果，通过调整状态矩阵可以将模型计算复杂度降低，达到了 SOTA 水平。

Oct, 2021

深度选择状态空间模型的理论基础

基于 Rough Path Theory，本研究证明了具备选择性机制的随机线性递归在输入控制条件下可产生低维投射的隐藏状态，并阐述了现代选择性状态空间模型的成功和未来 SSM 变体的表达能力。

Feb, 2024

利用简单的离散状态空间有效建模时间序列

提出了一种名为 SpaceTime 的新型状态空间时间序列体系结构，其通过一种新的 SSM 参数化基于伴随矩阵来提高表现力，并引入一个 “闭环” 变化的伴随 SSM，使其能够生成自己的逐层输入进行长期预测，同时通过算法实现前向传递的内存和计算效率提高，并在大量不同的基准测试中取得最先进的结果。

Mar, 2023