深度 SSM 结构的长度无关泛化界限与稳定性约束

May, 2024

深度 SSM 结构的长度无关泛化界限与稳定性约束

Length independent generalization bounds for deep SSM architectures with stability constraints

Dániel Rácz, Mihály Petreczky, Bálint Daróczy

TL;DR通过提供对稳定状态空间模型块的 PAC 界限，本文论证了稳定状态空间模型块的使用在理论上是合理的，并且该界限随着状态空间模型块的稳定程度的增加而减小。

Abstract

Many state-of-the-art models trained on long-range sequences, for example S4, S5 or LRU, are made of sequential blocks combining state-space mode

state-of-the-art models long-range sequences state-space models neural networks pac bound

发现论文，激发创造

稳定的状态空间模型的记忆问题通过稳定的参数化得到缓解

在本文中，我们从参数化的角度研究了状态空间模型（SSMs）的长期记忆学习能力。我们证明了没有进行重新参数化的状态空间模型具有类似于传统循环神经网络的记忆限制：状态空间模型能够稳定逼近的目标关系必须具有指数衰减的记忆。我们的分析将这种 “记忆的诅咒” 视为循环权重收敛至稳定边界的结果，因此暗示重新参数化技术可能是有效的。为此，我们引入了一类针对 SSMs 的重新参数化技术，可以有效解除其记忆限制。除了提高逼近能力之外，我们进一步说明了选择合理的重新参数化方案也可以增强优化的稳定性。我们使用合成数据集和语言模型对我们的发现进行了验证。

Nov, 2023

利用结构化状态空间高效建模长序列

提出了一种结构化状态空间序列模型（S4），它在处理长依赖序列数据方面与传统模型相比有着更好的结果，通过调整状态矩阵可以将模型计算复杂度降低，达到了 SOTA 水平。

Oct, 2021

深度选择状态空间模型的理论基础

基于 Rough Path Theory，本研究证明了具备选择性机制的随机线性递归在输入控制条件下可产生低维投射的隐藏状态，并阐述了现代选择性状态空间模型的成功和未来 SSM 变体的表达能力。

Feb, 2024

从泛化分析到状态空间模型的优化设计

本文研究了状态空间模型（SSM）的普适性，并提出基于普适性结果改进训练算法的方法。具体地，我们给出了一种依赖数据的 SSM 普适性界限，展示了 SSM 参数与训练序列的时间依赖性之间的相互作用。基于该普适性界限，我们（1）建立了一个基于提出的普适性度量的模型初始化缩放规则，显著提高了 SSM 对序列数据中不同时间模式的输出值尺度的稳健性；（2）引入了一种新的正则化方法来提高 SSM 的普适性性能。通过数值实验验证了我们的结果。

May, 2024

概率循环状态空间模型

本篇论文提出了一种基于双重随机变分推断和高斯过程的可扩展训练算法，用于可靠地训练完全概率状态空间模型中的潜在状态时间相关性，并在真实世界基准数据集集上评估了所提出的 PR-SSM 的效果与最先进的概率模型学习方法进行了比较

Jan, 2018

LongSSM: 论语言模型中的状态空间模型长度扩展

在这篇论文中，我们研究了语言建模中状态空间模型（SSMs）的长度扩展问题。我们发现，使用零隐藏状态初始化的状态空间模型在长度扩展上存在困难，并将此困难解释为多项式外推的等价形式。基于这个理论，我们提出了一种简单而有效的方法 —— 改变隐藏状态初始化方案 —— 以改进长度扩展。此外，我们的方法表明，使用较长的训练序列长度对于长度扩展是有益的，但并非必要条件。改变隐藏状态初始化使得能够以更小的训练上下文长度有效地训练具有长记忆的模型。

Jun, 2024

门控状态空间实现的长序列语言模型

本论文介绍了一种基于门控状态空间（GSS）的自回归序列建模方法，该方法使用自注意力来建模局部依赖关系，从而能够有效地处理长距离依赖关系，且在英语书籍、Github 源代码和 ArXiv 数学文章上的实验表明，该方法训练速度明显快于传统方法并且具有零样本推广能力。

Jun, 2022

时态图上的状态空间模型：第一原理研究

本研究通过将结构信息整合到在线逼近目标中，采用拉普拉斯正则化项，将状态空间模型理论扩展到时间图，提出了 GraphSSM 框架，用于建模时间图的动态性，实验证明 GraphSSM 在各种时间图基准测试中的有效性。

Jun, 2024

序列建模的简化状态空间层

介绍了基于深度学习、HiPPO 形式和线性状态空间模型的结构化状态空间序列（S4）层，以及在其基础上引入了一种新的状态空间层 ——S5 层。与 S4 层使用多个独立的 SSM 相比，S5 层使用一个多输入、多输出的 SSM，从而实现了更高的计算效率和性能。S5 在长距离序列建模任务上达到了最新的最高性能，并使最难的 Path-X 任务的准确率达到了 98.5%。

Aug, 2022

包括稳定 RNN 的动态系统 PAC-Bayes 泛化界限

在这篇论文中，我们推导了一个 PAC-Bayes 界限，用于一类特殊的离散时间非线性动力系统的监督时间序列设置。这个类别包括稳定的递归神经网络（RNN），而这项工作的动机就是应用于 RNN。我们在允许的模型上施加一些稳定性约束，这里的稳定性是以动力系统的概念来理解的。对于 RNN，这些稳定性条件可以表示为关于权重的条件。我们假设所涉及的过程在本质上是有界的，并且损失函数是利普希茨的。所提出的对于泛化差距的界限依赖于数据分布的混合系数和数据的本质上最大值。此外，随着数据集大小的增加，这个界限收敛于零。在这篇论文中，我们 1）正式化了学习问题，2）为这类系统推导了一个 PAC-Bayesian 误差界限，3）讨论了这个误差界限的各种结果，以及 4）展示了一个说明性例子，并讨论了计算所提出的界限的方法。与其他可用的界限不同，这个推导的界限适用于非独立同分布的数据（时序数据），并且它不随 RNN 的步骤数增长。

Dec, 2023