时态图上的状态空间模型:第一原理研究
提出了一种名为 Graph State Space Convolution (GSSC) 的方法,该方法是 State Space Models (SSMs) 在图结构数据上的扩展,通过利用全局置换等变集合聚合和以节点之间的相对距离作为卷积核的可分解图卷积核,保留了 SSMs 的三个优点。实验证明 GSSC 在计算图子结构和十个常用基准数据集的表现上比 Message Passing Neural Networks (MPNNs) 更加表达能力强,且在 7 个数据集上取得了最佳结果,在其他 3 个数据集上也有显著提升。该研究结果突出了 GSSC 作为一种强大且可扩展的图机器学习模型的潜力。
Jun, 2024
在这篇论文中,我们首次全面回顾了 State Space Model(SSM)作为自注意力基础的 Transformer 模型的特性和优势,并提供了实验比较和分析。此外,我们还研究了 SSM 在自然语言处理和计算机视觉等多个领域的应用,并提出了未来研究的方向,希望能推动 SSM 在理论模型和应用方面的发展。
Apr, 2024
提出了一种名为 SpaceTime 的新型状态空间时间序列体系结构,其通过一种新的 SSM 参数化基于伴随矩阵来提高表现力,并引入一个 “闭环” 变化的伴随 SSM,使其能够生成自己的逐层输入进行长期预测,同时通过算法实现前向传递的内存和计算效率提高,并在大量不同的基准测试中取得最先进的结果。
Mar, 2023
序列建模是跨多个领域的一个关键领域,包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上,循环神经网络(RNNs)和长短时记忆网络(LSTMs)在机器翻译、命名实体识别等序列建模任务中占主导地位,但转换器的进步改变了这一范式,因为其性能更优越。然而,转换器面临 O (N^2) 注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题,其中使用频谱网络或卷积在一些任务上表现良好,但仍然难以处理长序列。状态空间模型(SSMs)已经成为此背景下序列建模范式的有希望的可替代选择,特别是随着 S4 及其变种(如 S4nd、Hippo、Hyena、Diagnol State Spaces(DSS)、Gated State Spaces(GSS)、Linear Recurrent Unit(LRU)、Liquid-S4、Mamba 等)的出现。本综述将基于门控结构、结构体系和循环结构对基础 SSMs 进行分类,还重点介绍了 SSMs 在视觉、视频、音频、语音、语言(特别是长序列建模)、医疗(包括基因组学)、化学(如药物设计)、推荐系统和时间序列分析等领域的不同应用。此外,我们总结了 SSMs 在长序列竞技场(LRA)、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2 以及早餐、硬币、LVU 等各种时间序列数据集上的性能。有关 Mamba-360 工作的项目页面可在此网页上找到:https://github.com/badripatro/mamba360。
Apr, 2024
近年来,将线性状态空间模型(SSM)整合到深度神经网络架构的基础模型中的兴趣日益增长。该论文对控制理论家介绍了 SSM 基于架构,并总结了最新的研究进展,对最成功的 SSM 提案进行了系统回顾,从控制理论的角度突出了它们的主要特点。此外,我们针对用于评估模型在学习长序列方面效率的标准基准进行了这些模型的性能比较分析。
Mar, 2024
通过引入具有可学习时间尺度参数的状态空间模型(SSM)来处理事件感测器数据,解决了在不同频率下部署模型的挑战,并且与传统 RNN 和 Transformer 模型相比,SSM 模型在事件感测任务中训练速度更快,且在更高频率的测试输入下表现出较小的性能降低。
Feb, 2024
本篇论文提出了一种基于双重随机变分推断和高斯过程的可扩展训练算法,用于可靠地训练完全概率状态空间模型中的潜在状态时间相关性, 并在真实世界基准数据集集上评估了所提出的 PR-SSM 的效果与最先进的概率模型学习方法进行了比较
Jan, 2018
本文研究了状态空间模型(SSM)的普适性,并提出基于普适性结果改进训练算法的方法。具体地,我们给出了一种依赖数据的 SSM 普适性界限,展示了 SSM 参数与训练序列的时间依赖性之间的相互作用。基于该普适性界限,我们(1)建立了一个基于提出的普适性度量的模型初始化缩放规则,显著提高了 SSM 对序列数据中不同时间模式的输出值尺度的稳健性;(2)引入了一种新的正则化方法来提高 SSM 的普适性性能。通过数值实验验证了我们的结果。
May, 2024
通过对比转换器架构的普遍存在的理论弱点,我们的分析揭示了状态空间模型在状态跟踪方面与转换器非常相似的表达能力的限制,这可能从根本上限制了它们解决现实世界状态跟踪问题的能力。
Apr, 2024
提出了一种结构化状态空间序列模型(S4),它在处理长依赖序列数据方面与传统模型相比有着更好的结果,通过调整状态矩阵可以将模型计算复杂度降低,达到了 SOTA 水平。
Oct, 2021