SPMamba：语音分离中你所需的全部是状态空间模型

Apr, 2024

SPMamba：语音分离中你所需的全部是状态空间模型

SPMamba: State-space model is all you need in speech separation

Kai Li, Guo Chen

TL;DR本文以状态空间模型为基础，提出了一种用于语音分离的网络架构，即 SPMamba。通过将 TF-GridNet 模型的 Transformer 组件替换为双向 Mamba 模块，旨在捕捉更广泛的上下文信息。实验结果表明，基于 Mamba 的模型在性能方面发挥了重要作用，SPMamba 在建立在 Librispeech 数据集上的模型中表现出优越的性能，与 TF-GridNet 相比，在 SI-SNRi 方面提高了 2.42 dB。SPMamba 的源代码可在此 https URL 提交。

Abstract

In speech separation, both CNN- and Transformer-based models have demonstrated robust separation capabilities, garnering significant attention within the research community. However, cnn-based methods have limite

speech separation cnn-based methods transformer-based methods mamba-based methods state-space model

发现论文，激发创造

Mamba：具有选择性状态空间的线性时间序列建模

基于 Transformer 架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比 Transformers 快 5 倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers，与其两倍大小的模型性能相当。

Dec, 2023

SSAMBA：自监督音频表示学习与 Mamba 状态空间模型

使用自监督方法的 SSAMBA 模型，结合双向 Mamba 的优势，在音频表示学习任务中实现更高的性能和更高的效率。

May, 2024

融入曼巴进行语音增强的研究

研究了一种可扩展的状态空间模型（SSM）Mamba，用于语音增强（SE）任务，利用基于 Mamba 的回归模型来表征语音信号，并在 Mamba 上构建了一个 SE 系统，命名为 SEMamba，在基本和高级 SE 系统中集成了 Mamba 的属性，并利用信号级距离和基于度量的损失函数。SEMamba 表现出有希望的结果，并在 VoiceBank-DEMAND 数据集上获得了 3.55 的 PESQ 分数。当与感知对比拉伸技术结合使用时，所提出的 SEMamba 获得了 3.69 的最新的 PESQ 分数。

May, 2024

变压器是 SSM：通过结构化状态空间对偶实现的广义模型和高效算法

Transformers 与 state-space models（包括 Mamba）存在相关性，通过结构化半可分矩阵的各种分解，我们开发了一个理论连接的丰富框架，证明了这些模型家族之间的联系。基于我们的 state space duality（SSD）框架，我们设计了一种新的架构（Mamba-2），其核心层是 Mamba 的选择性 SSM 的改进，速度提高了 2-8 倍，同时继续与 Transformers 在语言建模方面竞争。

May, 2024

音频曼巴：用于音频标记的预训练音频状态空间模型

通过提出自注意力自由的方法，音频马巴（Audio Mamba）利用状态空间模型来捕捉长音频频谱的依赖关系，实现了参数的高效性，并且在两个音频标记数据集上取得了与状态机最新技术相媲美的结果。

May, 2024

PointMamba：一种用于点云分析的简单状态空间模型

基于状态空间模型 (SSM) 成功在 NLP 任务中进行序列建模的启发，我们提出了具有全局建模和线性复杂度的 PointMamba 框架，通过重新排序策略提供更合理的几何扫描顺序来增强 SSM 的全局建模能力，实验证明我们的 PointMamba 在不同的点云分析数据集上胜过基于 transformer 的对应模型，同时节省了约 44.3% 的参数和 25% 的 FLOPs，展示了构建基础 3D 视觉模型的潜在选择，并为点云分析提供了新的视角。

Feb, 2024

音频曼巴：用于音频表示学习的双向状态空间模型

通过引入纯 SSM（state space models）模型的音频分类模型 AuM，我们探讨了自注意力是否对音频分类任务至关重要，并在六个不同基准数据集上评估 AuM 的表现，结果表明它在性能上与已建立的 AST 模型相当或更好。

Jun, 2024

音频蟒蛇：用于自监督音频表示的选择性状态空间

提出了一种名为 Audio Mamba 的选择性状态空间模型，通过自我监督学习从随机遮罩的频谱图补丁中学习通用的音频表示。实证结果表明，预训练于 AudioSet 数据集的该模型在十个不同的音频识别任务中持续优于可比较的自我监督音频谱图 Transformer (SSAST) 基线，表现出更好的数据集大小、序列长度和模型大小的对比性能。

Jun, 2024

CU-Mamba：用于图像恢复的具有通道学习的选择性状态空间模型

重建退化图像的关键任务在图像处理中非常重要，我们引入了基于通道感知的 U 形曼巴模型，它融合了双状态空间模型（SSM）框架与 U-Net 架构，通过引入空间 SSM 模块和通道 SSM 组件，它能够线性计算的复杂度相对于特征图大小进行全局上下文编码和保留通道相关特征，从而在图像恢复方面优于现有的最先进方法，凸显了整合空间和通道上下文的重要性。

Apr, 2024

MambaAD：用于多类无监督异常检测的状态空间模型研究

应用 Mamba 到多类无监督异常检测，提出了包含预训练编码器和 Mamba 解码器的 MambaAD，通过在多个尺度上引入局部增强状态空间模块 (LSS)，该方法在六个不同的异常检测数据集上展示了具有 SoTA 性能的结果，证实了其有效性。

Apr, 2024