MambaLRP: 解释选择性状态空间序列模型

Jun, 2024

MambaLRP: 解释选择性状态空间序列模型

MambaLRP: Explaining Selective State Space Sequence Models

Farnoush Rezaei Jafari, Grégoire Montavon, Klaus-Robert Müller, Oliver Eberle

TL;DR借助相关性传播的层次和 Mamba 架构的分析，我们提出了 MambaLRP 算法，以增强深度学习模型的可解释性，并取得了多个模型和数据集上的最先进解释性能。

Abstract

Recent sequence modeling approaches using Selective State Space Sequence Models, referred to as mamba models, have seen a surge of interest. These models allow efficient processing of long sequences in linear tim

sequence modeling mamba models transparency layer-wise relevance propagation explanation performance

发现论文，激发创造

Mamba：具有选择性状态空间的线性时间序列建模

基于 Transformer 架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比 Transformers 快 5 倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers，与其两倍大小的模型性能相当。

Dec, 2023

Graph-Mamba: 面向具有选择性状态空间的长程图序列建模

本研究介绍了 Graph-Mamba，通过将 Mamba block 与依赖于输入的节点选择机制进行整合，增强了图网络中的长程上下文建模，从而显著提高了预测性能。通过对十个基准数据集的广泛实验，证明 Graph-Mamba 在长程图预测任务中胜过最先进的方法，且在 FLOPs 和 GPU 内存消耗方面计算成本只占一小部分。

Feb, 2024

曼巴模型的隐含关注

Mamba 层是一种高效的选择性状态空间模型 (SSM)，在模拟多个领域包括自然语言处理 (NLP)，长程序列处理和计算机视觉方面非常有效。

Mar, 2024

决策玛巴：有选择性状态空间的序列建模强化学习

该研究探讨决策变压器架构中整合 Mamba 框架的潜在性能提升，并通过实验评估修改后的决策变压器模型 Decision Mamba 在不同决策环境中的效果，为顺序决策模型的发展做出贡献，突显了神经网络的架构和训练方法对复杂任务性能的重要影响，并突出了 Mamba 作为改进强化学习场景中基于 Transformer 模型的有效工具的潜力。

Mar, 2024

VL-Mamba: 多模式学习中的状态空间模型探索

通过基于状态空间模型的 VL-Mamba 多模态大语言模型和 2D 视觉选择扫描机制以及不同视觉编码器和预训练 Mamba 语言模型的组合的实证研究，我们证明了状态空间模型在多模态学习任务中具有巨大潜力，并展示了 VL-Mamba 在各种多模态基准测试中具有竞争力的性能。

Mar, 2024

Mamba-360：状态空间模型作为长序列建模的 Transformer 替代方案调研：方法、应用和挑战

序列建模是跨多个领域的一个关键领域，包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上，循环神经网络（RNNs）和长短时记忆网络（LSTMs）在机器翻译、命名实体识别等序列建模任务中占主导地位，但转换器的进步改变了这一范式，因为其性能更优越。然而，转换器面临 O (N^2) 注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题，其中使用频谱网络或卷积在一些任务上表现良好，但仍然难以处理长序列。状态空间模型（SSMs）已经成为此背景下序列建模范式的有希望的可替代选择，特别是随着 S4 及其变种（如 S4nd、Hippo、Hyena、Diagnol State Spaces（DSS）、Gated State Spaces（GSS）、Linear Recurrent Unit（LRU）、Liquid-S4、Mamba 等）的出现。本综述将基于门控结构、结构体系和循环结构对基础 SSMs 进行分类，还重点介绍了 SSMs 在视觉、视频、音频、语音、语言（特别是长序列建模）、医疗（包括基因组学）、化学（如药物设计）、推荐系统和时间序列分析等领域的不同应用。此外，我们总结了 SSMs 在长序列竞技场（LRA）、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2 以及早餐、硬币、LVU 等各种时间序列数据集上的性能。有关 Mamba-360 工作的项目页面可在此网页上找到：https://github.com/badripatro/mamba360。

Apr, 2024

计算效率时代：医学图像分析中状态空间模型的综合调查

该论文通过对 Mamba 模型在医学图像中的应用进行全面回顾，介绍了该模型的架构、分类和未来研究方向。

Jun, 2024

Mamba-ND：针对多维数据的选择性状态空间建模

本文介绍了一种名为 Mamba-ND 的通用设计，将 Mamba 架构扩展到任意多维数据，并通过与其他替代方案的比较实证表明 Mamba-ND 在多个多维基准测试中表现出与最先进方法相竞争的性能。

Feb, 2024

决策猛蛇：一种具有自我演进正则化的离线强化学习多粒度状态空间模型

决策曼巴（DM）是一种新颖的多粒度状态空间模型（SSM），用于处理条件序列建模和 transformer 架构在离线强化学习（RL）任务中的应用。DM 通过使用曼巴架构明确地建模历史隐藏状态来提取时间信息，并通过细粒度 SSM 模块捕捉状态 - 动作 - 返回三元组之间的关系，从而进行了离线 RL 的定制设计。此外，通过使用渐进正则化来提出自我进化策略，以减轻噪声轨迹导致的过拟合问题。大量的任务实验表明，DM 明显优于其他基准模型。

Jun, 2024

KalMamba：面向不确定下的高效概率状态空间模型的强化学习

提出了 KalMamba—— 一种高效的架构，将概率状态空间模型与确定性状态空间模型的可伸缩性相结合，利用 Mamba 在潜在空间中学习线性高斯状态空间模型的动力学参数，并通过并行关联扫描实现标准卡尔曼滤波和平滑。实验证明，KalMamba 在强化学习中与最先进的 SSM 方法相媲美，同时在计算效率上显著提升，特别是在长时间交互序列中。

Jun, 2024