避免使用 HiPPOs 的长记忆状态空间模型之希望
通过对 HiPPO 框架的一般化和直观表述,我们可以使用指数变形的 Legendre 多项式的分解,解释 S4 模型成功捕捉长范围依赖的能力,并改进 S4 的性能,达到 Long Range Arena 基准测试的 86%,路径部分(Path-X task)达到了 96%。
Jun, 2022
在这篇论文中,我们提出了一个用于解决机器学习中的病态对角化问题的通用、稳定的 “扰动 - 然后对角化” (PTD) 方法,并基于此方法引入了 S4-PTD 和 S5-PTD 模型。通过对不同初始化方案的传递函数进行理论分析,我们证明了 S4-PTD/S5-PTD 初始化可以强大地收敛于 HiPPO 框架,而 S4D/S5 初始化只能实现弱收敛。因此,我们的新模型对傅里叶模式噪声扰动输入表现出了鲁棒性,这是 S4D/S5 模型所无法达到的重要特性。此外,我们的 S5-PTD 模型在 Long-Range Arena 基准上平均达到 87.6% 的准确率,证明了 PTD 方法在提升深度学习模型的准确性方面起到了积极作用。
Oct, 2023
在本文中,我们从参数化的角度研究了状态空间模型(SSMs)的长期记忆学习能力。我们证明了没有进行重新参数化的状态空间模型具有类似于传统循环神经网络的记忆限制:状态空间模型能够稳定逼近的目标关系必须具有指数衰减的记忆。我们的分析将这种 “记忆的诅咒” 视为循环权重收敛至稳定边界的结果,因此暗示重新参数化技术可能是有效的。为此,我们引入了一类针对 SSMs 的重新参数化技术,可以有效解除其记忆限制。除了提高逼近能力之外,我们进一步说明了选择合理的重新参数化方案也可以增强优化的稳定性。我们使用合成数据集和语言模型对我们的发现进行了验证。
Nov, 2023
建模序列数据中的长程依赖是序列学习中关键的一步,本研究提出了一种新模型 Structured State Space(S4),通过结构化状态空间模型在建模长程序列方面表现出了显著的有效性。与 S4 相比,本研究采用指数平滑(ETS)作为简单的状态空间模型,并将其直接融入逐元素 MLP 中,通过添加额外参数和复杂域来减少归纳偏差,虽然我们的模型仅比逐元素 MLP 增加了不到 1% 的参数,但在 LRA 基准测试上取得了可比较的结果。
Mar, 2024
介绍了基于深度学习、HiPPO 形式和线性状态空间模型的结构化状态空间序列(S4)层,以及在其基础上引入了一种新的状态空间层 ——S5 层。与 S4 层使用多个独立的 SSM 相比,S5 层使用一个多输入、多输出的 SSM,从而实现了更高的计算效率和性能。S5 在长距离序列建模任务上达到了最新的最高性能,并使最难的 Path-X 任务的准确率达到了 98.5%。
Aug, 2022
本篇论文提出了一种基于双重随机变分推断和高斯过程的可扩展训练算法,用于可靠地训练完全概率状态空间模型中的潜在状态时间相关性, 并在真实世界基准数据集集上评估了所提出的 PR-SSM 的效果与最先进的概率模型学习方法进行了比较
Jan, 2018
介绍了一种名为 HiP-RSSMs 的框架,将相关动态系统参数化为低维潜在因素,并在真实世界的控制任务和仿真中表现出优于 RSSMs 和其他多任务模型的动态行为。
Jun, 2022
本文基于样本记忆回放机制 (State Memory Replay mechanism) 提出了一种创新的非递归非均匀采样处理策略,解决了状态空间模型 (State Space Models) 中的非稳定状态问题 (Non-Stable State problem),从而实现了采样步骤自适应 (Sampling Step Adaptation),并通过长文本建模任务的实验验证了这一机制的普遍有效性。
May, 2024
在参数化系统识别中,准确实现具有有限复杂性的系统建模至关重要。本文通过针对深度结构状态空间模型中线性动力学模块的系统理论模型降阶技术来解决这一挑战。我们引入了两个正则化项,在训练损失中加入以改善模型降阶效果。通过模态 L1 和 Hankel 核范数正则化,我们促进了稀疏性,只保留相关状态而不损失准确性。所提出的正则化方法具有简约表示和由降阶模型带来的更快推断的优势。我们使用飞机的真实世界地面振动数据展示了所提出方法的有效性。
Mar, 2024