基于状态空间模型的图学习:图蟒
我们提出了一种异构图曼巴网络 (HGMN),它是利用选择性状态空间模型 (SSSMs) 进行异构图学习的首次探索。相比文献,我们的 HGMN 克服了两个主要挑战:(i) 捕捉异构节点之间的长程依赖和 (ii) 将 SSSMs 针对异构图数据进行适应。我们的主要贡献是提出了一个通用的图结构,可以解决现实场景中的异构节点,并进行高效的流程。在方法上,我们引入了一种两级高效的标记化方法,首先在相同节点类型内捕捉长程依赖,然后在所有节点类型之间进行捕捉。在实证方面,我们在异构基准测试上将我们的框架与其他 19 个最先进的方法进行了比较。广泛的比较表明,我们的框架在准确性和效率维度上表现优于其他方法。
May, 2024
本研究介绍了 Graph-Mamba,通过将 Mamba block 与依赖于输入的节点选择机制进行整合,增强了图网络中的长程上下文建模,从而显著提高了预测性能。通过对十个基准数据集的广泛实验,证明 Graph-Mamba 在长程图预测任务中胜过最先进的方法,且在 FLOPs 和 GPU 内存消耗方面计算成本只占一小部分。
Feb, 2024
提出了一种名为 Graph State Space Convolution (GSSC) 的方法,该方法是 State Space Models (SSMs) 在图结构数据上的扩展,通过利用全局置换等变集合聚合和以节点之间的相对距离作为卷积核的可分解图卷积核,保留了 SSMs 的三个优点。实验证明 GSSC 在计算图子结构和十个常用基准数据集的表现上比 Message Passing Neural Networks (MPNNs) 更加表达能力强,且在 7 个数据集上取得了最佳结果,在其他 3 个数据集上也有显著提升。该研究结果突出了 GSSC 作为一种强大且可扩展的图机器学习模型的潜力。
Jun, 2024
基于选择性状态空间模型,该研究提出了一种名为 STG-Mamba 的时空图学习方法,借助图选择性状态空间块(GS3B)刻画了 STG 网络的动态演化,并引入了 Kalman 滤波图神经网络(KFGN)来提升 GNN 在 STG 数据建模中的能力。大量实证研究表明了 STG-Mamba 在预测性能和计算效率方面的优越性。
Mar, 2024
Transformers 与 state-space models(包括 Mamba)存在相关性,通过结构化半可分矩阵的各种分解,我们开发了一个理论连接的丰富框架,证明了这些模型家族之间的联系。基于我们的 state space duality(SSD)框架,我们设计了一种新的架构(Mamba-2),其核心层是 Mamba 的选择性 SSM 的改进,速度提高了 2-8 倍,同时继续与 Transformers 在语言建模方面竞争。
May, 2024
该研究提出了一种名为 DGMamba 的新型域泛化框架,具有对未知领域的强大普适性和全局感受野以及高效的线性复杂度,通过引入 HSS 和 SPR 两个核心组件来改进分布偏移问题;其中,HSS 减少了与特定领域特征相关的隐藏状态对输出预测的影响,而 SPR 旨在通过重新排列图像内的非语义补丁,并通过领域之间的补丁融合来规范化 Mamba。在四个常用的域泛化基准测试中进行的广泛实验证明,DGMamba 相比于现有模型取得了卓越的结果。
Apr, 2024
序列建模是跨多个领域的一个关键领域,包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上,循环神经网络(RNNs)和长短时记忆网络(LSTMs)在机器翻译、命名实体识别等序列建模任务中占主导地位,但转换器的进步改变了这一范式,因为其性能更优越。然而,转换器面临 O (N^2) 注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题,其中使用频谱网络或卷积在一些任务上表现良好,但仍然难以处理长序列。状态空间模型(SSMs)已经成为此背景下序列建模范式的有希望的可替代选择,特别是随着 S4 及其变种(如 S4nd、Hippo、Hyena、Diagnol State Spaces(DSS)、Gated State Spaces(GSS)、Linear Recurrent Unit(LRU)、Liquid-S4、Mamba 等)的出现。本综述将基于门控结构、结构体系和循环结构对基础 SSMs 进行分类,还重点介绍了 SSMs 在视觉、视频、音频、语音、语言(特别是长序列建模)、医疗(包括基因组学)、化学(如药物设计)、推荐系统和时间序列分析等领域的不同应用。此外,我们总结了 SSMs 在长序列竞技场(LRA)、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2 以及早餐、硬币、LVU 等各种时间序列数据集上的性能。有关 Mamba-360 工作的项目页面可在此网页上找到:https://github.com/badripatro/mamba360。
Apr, 2024
基于 Transformer 架构的基础模型凭借其核心注意力模块,驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理,并对此进行了改进,通过让结构状态空间模型(SSMs)参数成为输入的函数来解决离散模态的弱点,该模型在长度可选的维度上选择性地传播或遗忘信息,并且通过在递归模式下设计一种硬件感知并行算法,将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型(Mamba)具有快速推断速度(比 Transformers 快 5 倍)和序列长度的线性扩展,并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持,Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中,我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers,与其两倍大小的模型性能相当。
Dec, 2023
本研究通过将结构信息整合到在线逼近目标中,采用拉普拉斯正则化项,将状态空间模型理论扩展到时间图,提出了 GraphSSM 框架,用于建模时间图的动态性,实验证明 GraphSSM 在各种时间图基准测试中的有效性。
Jun, 2024
研究论文通过对 Mamba 状态空间模型进行多种实验和评估,证明了其在混合精度和参数高效微调方面的能力,同时还分析了其在上下文学习方面的性能与 Transformer 大型语言模型的差异,并提出了基于动力学系统理论的验证方法。
May, 2024