音频曼巴:用于音频标记的预训练音频状态空间模型
通过引入纯 SSM(state space models)模型的音频分类模型 AuM,我们探讨了自注意力是否对音频分类任务至关重要,并在六个不同基准数据集上评估 AuM 的表现,结果表明它在性能上与已建立的 AST 模型相当或更好。
Jun, 2024
提出了一种名为 Audio Mamba 的选择性状态空间模型,通过自我监督学习从随机遮罩的频谱图补丁中学习通用的音频表示。实证结果表明,预训练于 AudioSet 数据集的该模型在十个不同的音频识别任务中持续优于可比较的自我监督音频谱图 Transformer (SSAST) 基线,表现出更好的数据集大小、序列长度和模型大小的对比性能。
Jun, 2024
本文以状态空间模型为基础,提出了一种用于语音分离的网络架构,即 SPMamba。通过将 TF-GridNet 模型的 Transformer 组件替换为双向 Mamba 模块,旨在捕捉更广泛的上下文信息。实验结果表明,基于 Mamba 的模型在性能方面发挥了重要作用,SPMamba 在建立在 Librispeech 数据集上的模型中表现出优越的性能,与 TF-GridNet 相比,在 SI-SNRi 方面提高了 2.42 dB。SPMamba 的源代码可在此 https URL 提交。
Apr, 2024
提出了 SHMamba:结构化双曲状态空间模型,利用双曲几何和状态空间模型的优势,表示音频 - 视觉数据的分层结构和复杂关系。通过引入自适应曲率双曲对齐模块和交叉融合块,增强分层结构的理解和跨模态信息的动态交流。广泛实验证明,SHMamba 在参数和计算成本上优于以前的方法,参数减少 78.12%,平均性能提高 2.53%。实验证明我们的方法在当前主要方法中具有优势,并更适合实际应用场景。
Jun, 2024
应用 Mamba 到多类无监督异常检测,提出了包含预训练编码器和 Mamba 解码器的 MambaAD,通过在多个尺度上引入局部增强状态空间模块 (LSS),该方法在六个不同的异常检测数据集上展示了具有 SoTA 性能的结果,证实了其有效性。
Apr, 2024
通过基于状态空间模型的 VL-Mamba 多模态大语言模型和 2D 视觉选择扫描机制以及不同视觉编码器和预训练 Mamba 语言模型的组合的实证研究,我们证明了状态空间模型在多模态学习任务中具有巨大潜力,并展示了 VL-Mamba 在各种多模态基准测试中具有竞争力的性能。
Mar, 2024
基于 Transformer 架构的基础模型凭借其核心注意力模块,驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理,并对此进行了改进,通过让结构状态空间模型(SSMs)参数成为输入的函数来解决离散模态的弱点,该模型在长度可选的维度上选择性地传播或遗忘信息,并且通过在递归模式下设计一种硬件感知并行算法,将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型(Mamba)具有快速推断速度(比 Transformers 快 5 倍)和序列长度的线性扩展,并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持,Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中,我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers,与其两倍大小的模型性能相当。
Dec, 2023
本文介绍了一种名为 Mamba-ND 的通用设计,将 Mamba 架构扩展到任意多维数据,并通过与其他替代方案的比较实证表明 Mamba-ND 在多个多维基准测试中表现出与最先进方法相竞争的性能。
Feb, 2024
本研究介绍了 Graph-Mamba,通过将 Mamba block 与依赖于输入的节点选择机制进行整合,增强了图网络中的长程上下文建模,从而显著提高了预测性能。通过对十个基准数据集的广泛实验,证明 Graph-Mamba 在长程图预测任务中胜过最先进的方法,且在 FLOPs 和 GPU 内存消耗方面计算成本只占一小部分。
Feb, 2024