智能语音分离、识别与合成性能与效率评估研究

Jul, 2024

智能语音分离、识别与合成性能与效率评估研究

Speech Slytherin: Examining the Performance and Efficiency of Mamba for Speech Separation, Recognition, and Synthesis

Xilin Jiang, Yinghao Aaron Li, Adrian Nicolas Florea, Cong Han, Nima Mesgarani

TL;DRMamba和transformers在多个语音相关任务中的性能和效率需要进行比较，研究中通过对三个任务分别使用Mamba-TasNet、ConMamba和VALL-M三种模型并与相似大小的transformers进行比较，发现Mamba的性能在某些情况下可以媲美或超过transformers，且对于超过阈值时长的语音具有更高的内存和速度效率，但在短于阈值时长、需要同时建模文本和语音的模型中表现较差。

Abstract

It is too early to conclude that mamba is a better alternative to transformers for speech before comparing →

发现论文，激发创造

SpeeChain：用于大规模机器语音链的语音工具包

本文介绍了 SpeeChain，一种开源的基于 Pytorch 的工具包，用于开发用于大规模使用的机器语音链。该工具包着重于 TTS 到 ASR 链这一核心组件，旨在通过未经口头语言的文本来增强 TTS 数据，从而增强机器语音链。研究者们通过实现易于使用的多 GPU 批级模型推断、多数据加载器批量生成和新颖的数据选择技术来构建大规模 TTS-to-ASR 链的高效流水线。本文首先解释了 TTS-to-ASR 链的总体流程及其各个步骤的困难之处。然后，研究者们对不同类型的未标记数据、数据过滤阈值、批级组成以及真实-合成数据比率进行了详细的剖析研究。最后，通过在 LibriSpeech 的 train_clean_460 上进行实验，证明了半监督学习机制下，TTS-to-ASR 极大地提高了 WER。

Jan, 2023

TokenSplit:使用离散语音表征进行直接、精确和转录条件下的语音分离与识别

我们提出了TokenSplit，一种在离散标记序列上操作的语音分离模型。该模型通过输入掩码实现多任务训练，包括将每个语音源进行分离和转录，并从文本生成语音。我们还介绍了模型的“修正”版本，该版本通过传统分离模型分离的音频标记预测增强音频标记。通过客观度量和主观MUSHRA听测，我们证明了我们的模型在分离方面具有优秀的性能，无论是否有转录条件。我们还测量了自动语音识别（ASR）性能，并提供了语音合成的音频样本来展示我们模型的附加效用。

Aug, 2023

SPMamba：语音分离中你所需的全部是状态空间模型

本文以状态空间模型为基础，提出了一种用于语音分离的网络架构，即SPMamba。通过将TF-GridNet模型的Transformer组件替换为双向Mamba模块，旨在捕捉更广泛的上下文信息。实验结果表明，基于Mamba的模型在性能方面发挥了重要作用，SPMamba在建立在Librispeech数据集上的模型中表现出优越的性能，与TF-GridNet相比，在SI-SNRi方面提高了2.42 dB。SPMamba的源代码可在此https URL提交。

Apr, 2024

基于蟒蛇的语言模型的实证研究

选择性状态空间模型（SSMs）如Mamba克服了Transformer的一些缺点，例如与序列长度呈二次增长的计算复杂度和从键值缓存中获取大量的推理时间内存需求。此外，最近的研究显示，SSMs可以达到或超越Transformer的语言建模能力，使其成为一种有吸引力的替代选择。然而，迄今为止的研究只在相同数据的受控环境中进行了小规模实验，比较了SSMs和Transformers。为了了解这些体系结构在更大规模上的优缺点，我们在相同数据集上直接比较了8B参数的Mamba、Mamba-2和Transformer模型，数据集涵盖了多达3.5T个标记。我们还将这些模型与由43%的Mamba-2、7%的注意力和50%的MLP层（Mamba-2-Hybrid）组成的混合体系结构进行了比较。通过使用多种任务，我们回答了Mamba模型是否能在较大的训练预算下与Transformers相匹配的问题。我们的结果表明，纯SSMs在许多任务上达到或超越了Transformers，但在需要强大的复制或上下文学习能力（例如，5-shot MMLU、电话簿）或长期推理的任务上，它们落后于Transformers。相反，我们发现8B的Mamba-2-Hybrid在我们评估的所有12个标准任务上超过了8B Transformer（平均增加2.65个点），并且在生成推理标记时预计速度最多快8倍。为了验证长期上下文能力，我们进行了其他实验，评估了支持16K、32K和128K序列的Mamba-2-Hybrid和Transformer的变体。在23个额外的长期上下文任务中，混合模型在平均水平上继续紧密匹配或超越了Transformer。为了进一步的研究，我们将检查点以及用于训练我们的模型的代码作为NVIDIA的Megatron-LM项目的一部分发布。

Jun, 2024

探索未知领域：从Transformer到Mamba的导航指南

综述了一种名为Mamba的机制，讨论了其在深度神经网络（例如Transformer）和自然语言处理领域中的潜力、改进以及与其他网络的集成等相关研究方向。

Jun, 2024

Papez: 基于听觉工作记忆的资源高效语音分离

Papez是一种轻量级和计算高效的单通道语音分离模型，它通过使用小型听觉工作内存替代片段间的Transformer、自适应地修剪不需要进一步处理的输入令牌以及通过递归Transformer减少参数的方法，在资源和准确性方面取得了最好的平衡。

Jul, 2024

ReMamba：为 Mamba 提供有效的长序列建模

本研究针对 Mamba 模型在长上下文理解中的效率问题，提出了 ReMamba，该模型通过选择性压缩和适应技术，增强了 Mamba 对长上下文的理解能力，且额外推理成本极小。实验结果显示，ReMamba 在 LongBench 和 L-Eval 基准测试中，分别提高了 3.2 和 1.6 的表现，表现接近相同大小的变压器模型。

Aug, 2024

ReMamba：赋予Mamba有效的长序列建模能力

本研究针对Mamba模型在长上下文理解能力的不足进行了探讨，并提出了ReMamba，旨在提高其长上下文的理解能力。ReMamba通过选择性压缩和适应技术，在两阶段的再前馈过程中引入，几乎不增加额外的推理成本，实验结果表明其在LongBench和L-Eval基准上均显著优于传统基线。

Aug, 2024

ReMamba：赋予Mamba有效的长序列建模能力

本研究针对Mamba模型在长上下文理解能力有限的问题，提出了一种改进的方法ReMamba，通过在两阶段重新前馈过程中引入选择性压缩和适应技术，从而提升了Mamba对长上下文的理解能力。实验结果表明，ReMamba在LongBench和L-Eval基准上分别提高了3.2和1.6个百分点，且性能接近同尺寸的变换器模型。

Aug, 2024

曼巴能否始终享受“免费午餐”？

本文探讨了曼巴在序列建模中的表现，分析其在处理COPY操作时的局限性。研究发现，曼巴在序列长度线性增加时表现优异，但在固定大小时可能面临瓶颈，然而在解决某些动态规划问题时，其总成本与标准高效Transformer类似，展现出其在特定条件下的优势。

Oct, 2024