状态空间模型中的状态幻觉
基于线性状态空间模型的循环模型在语言建模方面表现出色,与变压器竞争力强,但对此类模型的原理能力了解甚少,因此我们提出了一项理论研究,比较了这种模型与变压器和传统循环神经网络的能力,发现它们有重叠但有区别的优势。
May, 2024
基于状态空间模型的深度神经网络在序列建模中引起了广泛关注,本文从估计序列到序列函数的角度出发,理论探讨了状态空间模型可以替代 Transformers 的任务范围,并证明了状态空间模型能够在特定类别的函数估计中取代 Transformers。
May, 2024
在这篇论文中,我们首次全面回顾了 State Space Model(SSM)作为自注意力基础的 Transformer 模型的特性和优势,并提供了实验比较和分析。此外,我们还研究了 SSM 在自然语言处理和计算机视觉等多个领域的应用,并提出了未来研究的方向,希望能推动 SSM 在理论模型和应用方面的发展。
Apr, 2024
本研究通过将结构信息整合到在线逼近目标中,采用拉普拉斯正则化项,将状态空间模型理论扩展到时间图,提出了 GraphSSM 框架,用于建模时间图的动态性,实验证明 GraphSSM 在各种时间图基准测试中的有效性。
Jun, 2024
本篇论文提出了一种基于双重随机变分推断和高斯过程的可扩展训练算法,用于可靠地训练完全概率状态空间模型中的潜在状态时间相关性, 并在真实世界基准数据集集上评估了所提出的 PR-SSM 的效果与最先进的概率模型学习方法进行了比较
Jan, 2018
本文介绍了一种名为 Block-State Transformer (BST) 的混合层,它在内部组合了用于长距离上下文建模的 SSM 子层和用于序列的短期表示的 Block Transformer 子层,并研究了三种完全可并行化的 SSM 和块状注意力的集成变体。我们证明了我们的模型在语言模型困惑度上胜过类似的基于 Transformer 的架构,并可以推广到更长的序列。另外,Block-State Transformer 在模型并行化时的层级速度比 Block-Recurrent Transformer 快了十倍以上。
Jun, 2023
基于 Rough Path Theory,本研究证明了具备选择性机制的随机线性递归在输入控制条件下可产生低维投射的隐藏状态,并阐述了现代选择性状态空间模型的成功和未来 SSM 变体的表达能力。
Feb, 2024
Transformers 与 state-space models(包括 Mamba)存在相关性,通过结构化半可分矩阵的各种分解,我们开发了一个理论连接的丰富框架,证明了这些模型家族之间的联系。基于我们的 state space duality(SSD)框架,我们设计了一种新的架构(Mamba-2),其核心层是 Mamba 的选择性 SSM 的改进,速度提高了 2-8 倍,同时继续与 Transformers 在语言建模方面竞争。
May, 2024
序列建模是跨多个领域的一个关键领域,包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上,循环神经网络(RNNs)和长短时记忆网络(LSTMs)在机器翻译、命名实体识别等序列建模任务中占主导地位,但转换器的进步改变了这一范式,因为其性能更优越。然而,转换器面临 O (N^2) 注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题,其中使用频谱网络或卷积在一些任务上表现良好,但仍然难以处理长序列。状态空间模型(SSMs)已经成为此背景下序列建模范式的有希望的可替代选择,特别是随着 S4 及其变种(如 S4nd、Hippo、Hyena、Diagnol State Spaces(DSS)、Gated State Spaces(GSS)、Linear Recurrent Unit(LRU)、Liquid-S4、Mamba 等)的出现。本综述将基于门控结构、结构体系和循环结构对基础 SSMs 进行分类,还重点介绍了 SSMs 在视觉、视频、音频、语音、语言(特别是长序列建模)、医疗(包括基因组学)、化学(如药物设计)、推荐系统和时间序列分析等领域的不同应用。此外,我们总结了 SSMs 在长序列竞技场(LRA)、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2 以及早餐、硬币、LVU 等各种时间序列数据集上的性能。有关 Mamba-360 工作的项目页面可在此网页上找到:https://github.com/badripatro/mamba360。
Apr, 2024
近年来,将线性状态空间模型(SSM)整合到深度神经网络架构的基础模型中的兴趣日益增长。该论文对控制理论家介绍了 SSM 基于架构,并总结了最新的研究进展,对最成功的 SSM 提案进行了系统回顾,从控制理论的角度突出了它们的主要特点。此外,我们针对用于评估模型在学习长序列方面效率的标准基准进行了这些模型的性能比较分析。
Mar, 2024