状态汤:上下文技能学习、检索和混合
对基于循环模型的顺序数据处理的最新方法进行了深入总结,并提供了关于体系结构和算法解决方案的完整分类,引导研究者在这一吸引人的研究领域进行进一步研究。
Jun, 2024
基于 Transformer 架构的基础模型凭借其核心注意力模块,驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理,并对此进行了改进,通过让结构状态空间模型(SSMs)参数成为输入的函数来解决离散模态的弱点,该模型在长度可选的维度上选择性地传播或遗忘信息,并且通过在递归模式下设计一种硬件感知并行算法,将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型(Mamba)具有快速推断速度(比 Transformers 快 5 倍)和序列长度的线性扩展,并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持,Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中,我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers,与其两倍大小的模型性能相当。
Dec, 2023
基于 Rough Path Theory,本研究证明了具备选择性机制的随机线性递归在输入控制条件下可产生低维投射的隐藏状态,并阐述了现代选择性状态空间模型的成功和未来 SSM 变体的表达能力。
Feb, 2024
序列建模是跨多个领域的一个关键领域,包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上,循环神经网络(RNNs)和长短时记忆网络(LSTMs)在机器翻译、命名实体识别等序列建模任务中占主导地位,但转换器的进步改变了这一范式,因为其性能更优越。然而,转换器面临 O (N^2) 注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题,其中使用频谱网络或卷积在一些任务上表现良好,但仍然难以处理长序列。状态空间模型(SSMs)已经成为此背景下序列建模范式的有希望的可替代选择,特别是随着 S4 及其变种(如 S4nd、Hippo、Hyena、Diagnol State Spaces(DSS)、Gated State Spaces(GSS)、Linear Recurrent Unit(LRU)、Liquid-S4、Mamba 等)的出现。本综述将基于门控结构、结构体系和循环结构对基础 SSMs 进行分类,还重点介绍了 SSMs 在视觉、视频、音频、语音、语言(特别是长序列建模)、医疗(包括基因组学)、化学(如药物设计)、推荐系统和时间序列分析等领域的不同应用。此外,我们总结了 SSMs 在长序列竞技场(LRA)、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2 以及早餐、硬币、LVU 等各种时间序列数据集上的性能。有关 Mamba-360 工作的项目页面可在此网页上找到:https://github.com/badripatro/mamba360。
Apr, 2024
Samba 是一种简单的混合架构,使用 Mamba(一种选择性状态空间模型)与滑动窗口注意力机制(SWA)相结合,以有效地建模具有无限上下文长度的序列,并实现了完美的内存回忆。
Jun, 2024
借助相关性传播的层次和 Mamba 架构的分析,我们提出了 MambaLRP 算法,以增强深度学习模型的可解释性,并取得了多个模型和数据集上的最先进解释性能。
Jun, 2024
本文研究如何提高 RNN 模型在环境应用中的性能,主要通过对 Stateful RNN 模型策略的数量比较及两种依赖策略的提出来解决 batch 间(inter-batch)及 batch 内(intra-batch)的时间关联性问题,其中一种策略为将 batch 定义为时间上有序的一组训练片段从而促进 batch 内部时间信息的共享,另一种策略为在训练片段中增加目标变量的初始值以减少训练时间,该方法在水文模型中表现出显著的性能提升。
Oct, 2022
该研究通过概率隐变量序列模型,使用前向算法实现连续状态 Kalman 滤波器来学习单词的表示。通过 EM 算法准确地优化参数,使用所学习到的单词嵌入作为标记任务的特征,在标记任务中实现显著的准确度改进,并通过线性递归神经网络通过我们的模型的参数来初始化非线性递归神经网络语言模型,降低了其训练时间和困惑度。
Feb, 2015