音频蟒蛇：用于自监督音频表示的选择性状态空间

Jun, 2024

音频蟒蛇：用于自监督音频表示的选择性状态空间

Audio Mamba: Selective State Spaces for Self-Supervised Audio Representations

Sarthak Yadav, Zheng-Hua Tan

TL;DR提出了一种名为 Audio Mamba 的选择性状态空间模型，通过自我监督学习从随机遮罩的频谱图补丁中学习通用的音频表示。实证结果表明，预训练于 AudioSet 数据集的该模型在十个不同的音频识别任务中持续优于可比较的自我监督音频谱图 Transformer (SSAST) 基线，表现出更好的数据集大小、序列长度和模型大小的对比性能。

Abstract

Despite its widespread adoption as the prominent neural architecture, the transformer has spurred several independent lines of work to address its limitations. One such approach is selective state space models, w

transformer selective state space models audio representations self-supervision audio mamba

发现论文，激发创造

音频曼巴：用于音频标记的预训练音频状态空间模型

通过提出自注意力自由的方法，音频马巴（Audio Mamba）利用状态空间模型来捕捉长音频频谱的依赖关系，实现了参数的高效性，并且在两个音频标记数据集上取得了与状态机最新技术相媲美的结果。

May, 2024

SSAMBA：自监督音频表示学习与 Mamba 状态空间模型

使用自监督方法的 SSAMBA 模型，结合双向 Mamba 的优势，在音频表示学习任务中实现更高的性能和更高的效率。

May, 2024

音频曼巴：用于音频表示学习的双向状态空间模型

通过引入纯 SSM（state space models）模型的音频分类模型 AuM，我们探讨了自注意力是否对音频分类任务至关重要，并在六个不同基准数据集上评估 AuM 的表现，结果表明它在性能上与已建立的 AST 模型相当或更好。

Jun, 2024

SPMamba：语音分离中你所需的全部是状态空间模型

本文以状态空间模型为基础，提出了一种用于语音分离的网络架构，即 SPMamba。通过将 TF-GridNet 模型的 Transformer 组件替换为双向 Mamba 模块，旨在捕捉更广泛的上下文信息。实验结果表明，基于 Mamba 的模型在性能方面发挥了重要作用，SPMamba 在建立在 Librispeech 数据集上的模型中表现出优越的性能，与 TF-GridNet 相比，在 SI-SNRi 方面提高了 2.42 dB。SPMamba 的源代码可在此 https URL 提交。

Apr, 2024

Mamba：具有选择性状态空间的线性时间序列建模

基于 Transformer 架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比 Transformers 快 5 倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers，与其两倍大小的模型性能相当。

Dec, 2023

SHMamba: 面向音视频问答的结构化双曲线状态空间模型

提出了 SHMamba：结构化双曲状态空间模型，利用双曲几何和状态空间模型的优势，表示音频 - 视觉数据的分层结构和复杂关系。通过引入自适应曲率双曲对齐模块和交叉融合块，增强分层结构的理解和跨模态信息的动态交流。广泛实验证明，SHMamba 在参数和计算成本上优于以前的方法，参数减少 78.12％，平均性能提高 2.53％。实验证明我们的方法在当前主要方法中具有优势，并更适合实际应用场景。

Jun, 2024

MambaAD：用于多类无监督异常检测的状态空间模型研究

应用 Mamba 到多类无监督异常检测，提出了包含预训练编码器和 Mamba 解码器的 MambaAD，通过在多个尺度上引入局部增强状态空间模块 (LSS)，该方法在六个不同的异常检测数据集上展示了具有 SoTA 性能的结果，证实了其有效性。

Apr, 2024

MambaMixer: 高效选择性状态空间模型与双令牌和通道选择

MambaMixer 是一种基于 State Space Models 的新型架构，通过数据依赖的权重使用选择性令牌和通道混合的方法，提供有效的长序列建模，在各种视觉和时间序列预测任务中展现出竞争性性能和显著改进的计算成本。

Mar, 2024

VL-Mamba: 多模式学习中的状态空间模型探索

通过基于状态空间模型的 VL-Mamba 多模态大语言模型和 2D 视觉选择扫描机制以及不同视觉编码器和预训练 Mamba 语言模型的组合的实证研究，我们证明了状态空间模型在多模态学习任务中具有巨大潜力，并展示了 VL-Mamba 在各种多模态基准测试中具有竞争力的性能。

Mar, 2024

SSAST: 自监督音频频谱变换器

本文提出了一种使用未标注数据进行自监督预训练的方法，使用联合判别式和生成式掩蔽频谱补丁建模对 AST 模型进行预训练，从而显著提高音频分类性能。这是音频领域中第一个基于补丁的自监督学习框架，也是 AST 的自监督学习框架的首次探索。

Oct, 2021