关于对角状态空间模型的参数化和初始化
在这篇论文中,我们提出了一个用于解决机器学习中的病态对角化问题的通用、稳定的 “扰动 - 然后对角化” (PTD) 方法,并基于此方法引入了 S4-PTD 和 S5-PTD 模型。通过对不同初始化方案的传递函数进行理论分析,我们证明了 S4-PTD/S5-PTD 初始化可以强大地收敛于 HiPPO 框架,而 S4D/S5 初始化只能实现弱收敛。因此,我们的新模型对傅里叶模式噪声扰动输入表现出了鲁棒性,这是 S4D/S5 模型所无法达到的重要特性。此外,我们的 S5-PTD 模型在 Long-Range Arena 基准上平均达到 87.6% 的准确率,证明了 PTD 方法在提升深度学习模型的准确性方面起到了积极作用。
Oct, 2023
本研究旨在探索长序列数据中的长程依赖性,评估 S4 和 DSS 模型在多种模态下的性能提升,并针对包括 Long Range Arena 任务和语音分类在内的不同任务进行了性能测试。结果表明,在某些任务上 DSS 模型的表现可媲美 S4 模型,且实现方式更为直接简单。
Mar, 2022
通过对 HiPPO 框架的一般化和直观表述,我们可以使用指数变形的 Legendre 多项式的分解,解释 S4 模型成功捕捉长范围依赖的能力,并改进 S4 的性能,达到 Long Range Arena 基准测试的 86%,路径部分(Path-X task)达到了 96%。
Jun, 2022
我们引入了一种新颖的学习方法,用于处理边缘智能应用中的长序列数据,包括传感器数据分析和实时分析,并在结构化状态空间序列模型中引入了对角状态空间层。该方法利用控制理论中常见的平衡截断技术,特别应用于对角状态空间层,以减少推理过程中的计算开销。通过利用减少模型的参数,我们改进了 S4 模型的初始化过程,在性能方面优于广泛使用的 Skew-HiPPo 初始化方法。数值实验表明,使用对角状态空间层训练的 S4 模型在准确度和效率指标上超过了传统训练的模型。此外,我们的观察结果显示了一个正向相关性:原始模型的准确度越高,使用我们的方法训练的模型的准确度也越高,这表明我们的方法有效地利用了原始模型的优势。
Feb, 2024
本文主要介绍了一种基于线性状态空间的序列模型,使用 vanilla Diagonal Linear RNNs 构建模型,并比较了该模型与 SSMs 以及 attention-based models 的表现。作者在 13 个合成序列任务中分析了不同模型的表现,结果表明该模型在一些高阶推理任务上表现良好。
Dec, 2022
介绍了基于深度学习、HiPPO 形式和线性状态空间模型的结构化状态空间序列(S4)层,以及在其基础上引入了一种新的状态空间层 ——S5 层。与 S4 层使用多个独立的 SSM 相比,S5 层使用一个多输入、多输出的 SSM,从而实现了更高的计算效率和性能。S5 在长距离序列建模任务上达到了最新的最高性能,并使最难的 Path-X 任务的准确率达到了 98.5%。
Aug, 2022
通过使用 Hankel 算子理论,我们开发了一种名为 HOPE 的新的 LTI 系统参数化方案,使得状态空间模型能够进行随机初始化、提高训练稳定性,并具有非衰减的记忆能力,相比传统的模型,参数更少,并在长序列任务中表现出更好的性能,同时我们通过应用序贯 CIFAR-10 任务验证了我们模型的长时记忆能力。
May, 2024
提出了一种结构化状态空间序列模型(S4),它在处理长依赖序列数据方面与传统模型相比有着更好的结果,通过调整状态矩阵可以将模型计算复杂度降低,达到了 SOTA 水平。
Oct, 2021
基于 Rough Path Theory,本研究证明了具备选择性机制的随机线性递归在输入控制条件下可产生低维投射的隐藏状态,并阐述了现代选择性状态空间模型的成功和未来 SSM 变体的表达能力。
Feb, 2024
提出了一种名为 SpaceTime 的新型状态空间时间序列体系结构,其通过一种新的 SSM 参数化基于伴随矩阵来提高表现力,并引入一个 “闭环” 变化的伴随 SSM,使其能够生成自己的逐层输入进行长期预测,同时通过算法实现前向传递的内存和计算效率提高,并在大量不同的基准测试中取得最先进的结果。
Mar, 2023