音频曼巴：用于音频标记的预训练音频状态空间模型

May, 2024

音频曼巴：用于音频标记的预训练音频状态空间模型

Audio Mamba: Pretrained Audio State Space Model For Audio Tagging

Jiaju Lin, Haoxuan Hu

TL;DR通过提出自注意力自由的方法，音频马巴（Audio Mamba）利用状态空间模型来捕捉长音频频谱的依赖关系，实现了参数的高效性，并且在两个音频标记数据集上取得了与状态机最新技术相媲美的结果。

Abstract

audio tagging is an important task of mapping audio samples to their corresponding categories. Recently endeavours that exploit transformer models in this field have achieved great success. However, the quadratic

audio tagging transformer models self-attention-free approach state space models parameter efficiency

发现论文，激发创造

音频曼巴：用于音频表示学习的双向状态空间模型

通过引入纯 SSM（state space models）模型的音频分类模型 AuM，我们探讨了自注意力是否对音频分类任务至关重要，并在六个不同基准数据集上评估 AuM 的表现，结果表明它在性能上与已建立的 AST 模型相当或更好。

Jun, 2024

SSAMBA：自监督音频表示学习与 Mamba 状态空间模型

使用自监督方法的 SSAMBA 模型，结合双向 Mamba 的优势，在音频表示学习任务中实现更高的性能和更高的效率。

May, 2024

音频蟒蛇：用于自监督音频表示的选择性状态空间

提出了一种名为 Audio Mamba 的选择性状态空间模型，通过自我监督学习从随机遮罩的频谱图补丁中学习通用的音频表示。实证结果表明，预训练于 AudioSet 数据集的该模型在十个不同的音频识别任务中持续优于可比较的自我监督音频谱图 Transformer (SSAST) 基线，表现出更好的数据集大小、序列长度和模型大小的对比性能。

Jun, 2024

SPMamba：语音分离中你所需的全部是状态空间模型

本文以状态空间模型为基础，提出了一种用于语音分离的网络架构，即 SPMamba。通过将 TF-GridNet 模型的 Transformer 组件替换为双向 Mamba 模块，旨在捕捉更广泛的上下文信息。实验结果表明，基于 Mamba 的模型在性能方面发挥了重要作用，SPMamba 在建立在 Librispeech 数据集上的模型中表现出优越的性能，与 TF-GridNet 相比，在 SI-SNRi 方面提高了 2.42 dB。SPMamba 的源代码可在此 https URL 提交。

Apr, 2024

SHMamba: 面向音视频问答的结构化双曲线状态空间模型

提出了 SHMamba：结构化双曲状态空间模型，利用双曲几何和状态空间模型的优势，表示音频 - 视觉数据的分层结构和复杂关系。通过引入自适应曲率双曲对齐模块和交叉融合块，增强分层结构的理解和跨模态信息的动态交流。广泛实验证明，SHMamba 在参数和计算成本上优于以前的方法，参数减少 78.12％，平均性能提高 2.53％。实验证明我们的方法在当前主要方法中具有优势，并更适合实际应用场景。

Jun, 2024

MambaAD：用于多类无监督异常检测的状态空间模型研究

应用 Mamba 到多类无监督异常检测，提出了包含预训练编码器和 Mamba 解码器的 MambaAD，通过在多个尺度上引入局部增强状态空间模块 (LSS)，该方法在六个不同的异常检测数据集上展示了具有 SoTA 性能的结果，证实了其有效性。

Apr, 2024

VL-Mamba: 多模式学习中的状态空间模型探索

通过基于状态空间模型的 VL-Mamba 多模态大语言模型和 2D 视觉选择扫描机制以及不同视觉编码器和预训练 Mamba 语言模型的组合的实证研究，我们证明了状态空间模型在多模态学习任务中具有巨大潜力，并展示了 VL-Mamba 在各种多模态基准测试中具有竞争力的性能。

Mar, 2024

Mamba：具有选择性状态空间的线性时间序列建模

基于 Transformer 架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比 Transformers 快 5 倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers，与其两倍大小的模型性能相当。

Dec, 2023

Mamba-ND：针对多维数据的选择性状态空间建模

本文介绍了一种名为 Mamba-ND 的通用设计，将 Mamba 架构扩展到任意多维数据，并通过与其他替代方案的比较实证表明 Mamba-ND 在多个多维基准测试中表现出与最先进方法相竞争的性能。

Feb, 2024

Graph-Mamba: 面向具有选择性状态空间的长程图序列建模

本研究介绍了 Graph-Mamba，通过将 Mamba block 与依赖于输入的节点选择机制进行整合，增强了图网络中的长程上下文建模，从而显著提高了预测性能。通过对十个基准数据集的广泛实验，证明 Graph-Mamba 在长程图预测任务中胜过最先进的方法，且在 FLOPs 和 GPU 内存消耗方面计算成本只占一小部分。

Feb, 2024