SSAMBA:自监督音频表示学习与 Mamba 状态空间模型
通过引入纯 SSM(state space models)模型的音频分类模型 AuM,我们探讨了自注意力是否对音频分类任务至关重要,并在六个不同基准数据集上评估 AuM 的表现,结果表明它在性能上与已建立的 AST 模型相当或更好。
Jun, 2024
通过提出自注意力自由的方法,音频马巴(Audio Mamba)利用状态空间模型来捕捉长音频频谱的依赖关系,实现了参数的高效性,并且在两个音频标记数据集上取得了与状态机最新技术相媲美的结果。
May, 2024
提出了一种名为 Audio Mamba 的选择性状态空间模型,通过自我监督学习从随机遮罩的频谱图补丁中学习通用的音频表示。实证结果表明,预训练于 AudioSet 数据集的该模型在十个不同的音频识别任务中持续优于可比较的自我监督音频谱图 Transformer (SSAST) 基线,表现出更好的数据集大小、序列长度和模型大小的对比性能。
Jun, 2024
应用 Mamba 到多类无监督异常检测,提出了包含预训练编码器和 Mamba 解码器的 MambaAD,通过在多个尺度上引入局部增强状态空间模块 (LSS),该方法在六个不同的异常检测数据集上展示了具有 SoTA 性能的结果,证实了其有效性。
Apr, 2024
本文以状态空间模型为基础,提出了一种用于语音分离的网络架构,即 SPMamba。通过将 TF-GridNet 模型的 Transformer 组件替换为双向 Mamba 模块,旨在捕捉更广泛的上下文信息。实验结果表明,基于 Mamba 的模型在性能方面发挥了重要作用,SPMamba 在建立在 Librispeech 数据集上的模型中表现出优越的性能,与 TF-GridNet 相比,在 SI-SNRi 方面提高了 2.42 dB。SPMamba 的源代码可在此 https URL 提交。
Apr, 2024
研究了一种可扩展的状态空间模型(SSM)Mamba,用于语音增强(SE)任务,利用基于 Mamba 的回归模型来表征语音信号,并在 Mamba 上构建了一个 SE 系统,命名为 SEMamba,在基本和高级 SE 系统中集成了 Mamba 的属性,并利用信号级距离和基于度量的损失函数。SEMamba 表现出有希望的结果,并在 VoiceBank-DEMAND 数据集上获得了 3.55 的 PESQ 分数。当与感知对比拉伸技术结合使用时,所提出的 SEMamba 获得了 3.69 的最新的 PESQ 分数。
May, 2024
基于 Transformer 架构的基础模型凭借其核心注意力模块,驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理,并对此进行了改进,通过让结构状态空间模型(SSMs)参数成为输入的函数来解决离散模态的弱点,该模型在长度可选的维度上选择性地传播或遗忘信息,并且通过在递归模式下设计一种硬件感知并行算法,将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型(Mamba)具有快速推断速度(比 Transformers 快 5 倍)和序列长度的线性扩展,并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持,Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中,我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers,与其两倍大小的模型性能相当。
Dec, 2023
提出了 SHMamba:结构化双曲状态空间模型,利用双曲几何和状态空间模型的优势,表示音频 - 视觉数据的分层结构和复杂关系。通过引入自适应曲率双曲对齐模块和交叉融合块,增强分层结构的理解和跨模态信息的动态交流。广泛实验证明,SHMamba 在参数和计算成本上优于以前的方法,参数减少 78.12%,平均性能提高 2.53%。实验证明我们的方法在当前主要方法中具有优势,并更适合实际应用场景。
Jun, 2024
Samba 是一种简单的混合架构,使用 Mamba(一种选择性状态空间模型)与滑动窗口注意力机制(SWA)相结合,以有效地建模具有无限上下文长度的序列,并实现了完美的内存回忆。
Jun, 2024
研究论文通过对 Mamba 状态空间模型进行多种实验和评估,证明了其在混合精度和参数高效微调方面的能力,同时还分析了其在上下文学习方面的性能与 Transformer 大型语言模型的差异,并提出了基于动力学系统理论的验证方法。
May, 2024