融入曼巴进行语音增强的研究

May, 2024

An Investigation of Incorporating Mamba for Speech Enhancement

Rong Chao, Wen-Huang Cheng, Moreno La Quatra, Sabato Marco Siniscalchi, Chao-Han Huck Yang...

TL;DR研究了一种可扩展的状态空间模型（SSM）Mamba，用于语音增强（SE）任务，利用基于 Mamba 的回归模型来表征语音信号，并在 Mamba 上构建了一个 SE 系统，命名为 SEMamba，在基本和高级 SE 系统中集成了 Mamba 的属性，并利用信号级距离和基于度量的损失函数。SEMamba 表现出有希望的结果，并在 VoiceBank-DEMAND 数据集上获得了 3.55 的 PESQ 分数。当与感知对比拉伸技术结合使用时，所提出的 SEMamba 获得了 3.69 的最新的 PESQ 分数。

Abstract

This work aims to study a scalable state-space model (SSM), mamba, for the speech enhancement (SE) task. We exploit a →

scalable state-space model speech enhancement mamba regression model perceptual contrast stretching

发现论文，激发创造

BlackMamba: 状态空间模型的专家混合

利用 Mamba SSM 和 MoE 相结合的新型架构 BlackMamba，在模型训练和推理 FLOPs 方面表现优秀，实现了 SSM 的线性复杂度生成和 MoE 快速高效推理的结合。

Feb, 2024

SSAMBA：自监督音频表示学习与 Mamba 状态空间模型

使用自监督方法的 SSAMBA 模型，结合双向 Mamba 的优势，在音频表示学习任务中实现更高的性能和更高的效率。

May, 2024

SPMamba：语音分离中你所需的全部是状态空间模型

本文以状态空间模型为基础，提出了一种用于语音分离的网络架构，即 SPMamba。通过将 TF-GridNet 模型的 Transformer 组件替换为双向 Mamba 模块，旨在捕捉更广泛的上下文信息。实验结果表明，基于 Mamba 的模型在性能方面发挥了重要作用，SPMamba 在建立在 Librispeech 数据集上的模型中表现出优越的性能，与 TF-GridNet 相比，在 SI-SNRi 方面提高了 2.42 dB。SPMamba 的源代码可在此 https URL 提交。

Apr, 2024

一种用于图像融合的局部增强和状态共享的新型状态空间模型

基于 Mamba 算法的本地增强视觉 Mamba（LEVM）块和状态共享技术的图像融合网络（LE-Mamba）在多光谱和高光谱图像融合数据集上取得了最先进的结果，证明了该方法的有效性。

Apr, 2024

Vision Mamba: 一项综合调查与分类

Mamba 是一种新型的人工智能架构，基于最新的状态空间模型，具有强大的效率和长距离依赖建模能力，被广泛应用于深度学习中的自然语言处理和视觉领域。本综述研究了 Mamba 在视觉任务和数据类型上的应用，探讨了其前身、最新进展以及对各领域的深远影响。

May, 2024

基于蟒蛇的语言模型的实证研究

选择性状态空间模型（SSMs）如 Mamba 克服了 Transformer 的一些缺点，例如与序列长度呈二次增长的计算复杂度和从键值缓存中获取大量的推理时间内存需求。此外，最近的研究显示，SSMs 可以达到或超越 Transformer 的语言建模能力，使其成为一种有吸引力的替代选择。然而，迄今为止的研究只在相同数据的受控环境中进行了小规模实验，比较了 SSMs 和 Transformers。为了了解这些体系结构在更大规模上的优缺点，我们在相同数据集上直接比较了 8B 参数的 Mamba、Mamba-2 和 Transformer 模型，数据集涵盖了多达 3.5T 个标记。我们还将这些模型与由 43% 的 Mamba-2、7% 的注意力和 50% 的 MLP 层（Mamba-2-Hybrid）组成的混合体系结构进行了比较。通过使用多种任务，我们回答了 Mamba 模型是否能在较大的训练预算下与 Transformers 相匹配的问题。我们的结果表明，纯 SSMs 在许多任务上达到或超越了 Transformers，但在需要强大的复制或上下文学习能力（例如，5-shot MMLU、电话簿）或长期推理的任务上，它们落后于 Transformers。相反，我们发现 8B 的 Mamba-2-Hybrid 在我们评估的所有 12 个标准任务上超过了 8B Transformer（平均增加 2.65 个点），并且在生成推理标记时预计速度最多快 8 倍。为了验证长期上下文能力，我们进行了其他实验，评估了支持 16K、32K 和 128K 序列的 Mamba-2-Hybrid 和 Transformer 的变体。在 23 个额外的长期上下文任务中，混合模型在平均水平上继续紧密匹配或超越了 Transformer。为了进一步的研究，我们将检查点以及用于训练我们的模型的代码作为 NVIDIA 的 Megatron-LM 项目的一部分发布。

Jun, 2024

关于视觉曼巴的调查

该研究综述了 Mamba 模型在计算机视觉领域的基本概念和优化方法，并介绍了它们在不同层次的视觉任务中的广泛应用，旨在引起学术界对当前挑战的关注并进一步应用 Mamba 模型于计算机视觉。

Apr, 2024

VL-Mamba: 多模式学习中的状态空间模型探索

通过基于状态空间模型的 VL-Mamba 多模态大语言模型和 2D 视觉选择扫描机制以及不同视觉编码器和预训练 Mamba 语言模型的组合的实证研究，我们证明了状态空间模型在多模态学习任务中具有巨大潜力，并展示了 VL-Mamba 在各种多模态基准测试中具有竞争力的性能。

Mar, 2024

蟒蛇状态空间模型可成为强大的下游学习模型

研究论文通过对 Mamba 状态空间模型进行多种实验和评估，证明了其在混合精度和参数高效微调方面的能力，同时还分析了其在上下文学习方面的性能与 Transformer 大型语言模型的差异，并提出了基于动力学系统理论的验证方法。

May, 2024

Mamba24/8D: 通过状态空间模型增强点云的全局交互

通过借鉴最近的状态空间模型在长序列建模方面的潜力，我们引入了基于 SSM（状态空间模型）的架构 Mamba 到点云领域，并提出了 Mamba24/8D，它在线性复杂度下具有强大的全局建模能力。该架构在多个 3D 点云分割任务上取得了最先进的结果，并通过大量实验证实了其有效性。

Jun, 2024