液体结构状态空间模型
该研究介绍了一类新的连续时间循环神经网络模型,采用非线性互联门来调制线性一阶动力系统的网络。这些神经网络表现出稳定和有界的行为,具有优秀的表达能力,可以更好地应对时间序列预测任务。
Jun, 2020
本研究通过将结构信息整合到在线逼近目标中,采用拉普拉斯正则化项,将状态空间模型理论扩展到时间图,提出了 GraphSSM 框架,用于建模时间图的动态性,实验证明 GraphSSM 在各种时间图基准测试中的有效性。
Jun, 2024
提出了一种结构化状态空间序列模型(S4),它在处理长依赖序列数据方面与传统模型相比有着更好的结果,通过调整状态矩阵可以将模型计算复杂度降低,达到了 SOTA 水平。
Oct, 2021
本研究旨在探索长序列数据中的长程依赖性,评估 S4 和 DSS 模型在多种模态下的性能提升,并针对包括 Long Range Arena 任务和语音分类在内的不同任务进行了性能测试。结果表明,在某些任务上 DSS 模型的表现可媲美 S4 模型,且实现方式更为直接简单。
Mar, 2022
本研究将控制系统应用于序列建模,提出了简单的序列模型 LSSL,并通过引入连续时间记忆的结构矩阵来提高模型性能,使用 LSSL 优于其他深度学习模型并在时间序列等领域取得了优秀成果。
Oct, 2021
长序列建模中性能和计算效率之间的权衡成为现有模型的瓶颈,本文基于控制理论中具有多输入和多输出的连续状态空间模型(SSMs),提出了一种新型神经网络,称为线性动力学嵌入神经网络(LDNN)。通过对角化和解耦然后快速傅里叶变换(FFT)的两种高效策略,将卷积的时间复杂度从 O (LNHmax {L, N}) 降低到 O (LNmax {H, log L}),实现了 LDNN 在长序列任务中的少参数、灵活推断和高效训练。我们通过双向非因果和多头设置进一步改进了 LDNN,以适应更广泛的应用领域。对长距离竞技场(LRA)进行了大量实验证明了 LDNN 的有效性和最先进的性能。
Feb, 2024
本论文提出了一种轻量级掩膜生成器的技术,采用长短掩膜对 S4 模型进行改进,从而更有效、准确地模拟视频中的长期时空依赖关系,并在三个数据集上均取得了比之前最先进的 S4 模型更高的准确性,降低了 23%的内存占用。
Mar, 2023
提出了一种名为 SpaceTime 的新型状态空间时间序列体系结构,其通过一种新的 SSM 参数化基于伴随矩阵来提高表现力,并引入一个 “闭环” 变化的伴随 SSM,使其能够生成自己的逐层输入进行长期预测,同时通过算法实现前向传递的内存和计算效率提高,并在大量不同的基准测试中取得最先进的结果。
Mar, 2023
序列建模是跨多个领域的一个关键领域,包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上,循环神经网络(RNNs)和长短时记忆网络(LSTMs)在机器翻译、命名实体识别等序列建模任务中占主导地位,但转换器的进步改变了这一范式,因为其性能更优越。然而,转换器面临 O (N^2) 注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题,其中使用频谱网络或卷积在一些任务上表现良好,但仍然难以处理长序列。状态空间模型(SSMs)已经成为此背景下序列建模范式的有希望的可替代选择,特别是随着 S4 及其变种(如 S4nd、Hippo、Hyena、Diagnol State Spaces(DSS)、Gated State Spaces(GSS)、Linear Recurrent Unit(LRU)、Liquid-S4、Mamba 等)的出现。本综述将基于门控结构、结构体系和循环结构对基础 SSMs 进行分类,还重点介绍了 SSMs 在视觉、视频、音频、语音、语言(特别是长序列建模)、医疗(包括基因组学)、化学(如药物设计)、推荐系统和时间序列分析等领域的不同应用。此外,我们总结了 SSMs 在长序列竞技场(LRA)、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2 以及早餐、硬币、LVU 等各种时间序列数据集上的性能。有关 Mamba-360 工作的项目页面可在此网页上找到:https://github.com/badripatro/mamba360。
Apr, 2024
本文主要介绍了一种基于线性状态空间的序列模型,使用 vanilla Diagonal Linear RNNs 构建模型,并比较了该模型与 SSMs 以及 attention-based models 的表现。作者在 13 个合成序列任务中分析了不同模型的表现,结果表明该模型在一些高阶推理任务上表现良好。
Dec, 2022