一种基于神经状态空间模型的高效语音分离方法

May, 2023

一种基于神经状态空间模型的高效语音分离方法

A Neural State-Space Model Approach to Efficient Speech Separation

Chen Chen, Chao-Han Huck Yang, Kai Li, Yuchen Hu, Pin-Jui Ku...

TL;DR提出了一种基于神经状态空间模型的高效音频分离框架 S4M，该模型可以将输入信号建模为线性常微分方程的形式，并在多尺度表示学习中学习全局一致的分离和重构，其模型复杂度显著低于 Attention-based Sepformer。

Abstract

In this work, we introduce S4M, a new efficient speech separation framework based on neural state-space models (SSM). Motivated by linear time-invariant systems for sequence modeling, our SSM-based approach can e

speech separation neural state-space models representation learning multi-scale representations model complexity

发现论文，激发创造

语音识别的多头状态空间模型

本文提出了一种带有特殊门控机制的多头状态空间（MH-SSM）架构，它可以作为多头注意力在转换器编码器中的替代品，在对于序列数据的处理中能够比转换器转录器更好地优化带来的结果，在 LibriSpeech 语音识别数据集上提高了性能。同时，我们将 MH-SSMs 层与转换器块相结合，成为 Stateformer，且无需使用外部语言模型，在 LibriSpeech 任务中实现了最先进的性能，其开发和测试集上的字错率分别为 1.76％/4.37％和 1.91％/4.36％。

May, 2023

SPMamba：语音分离中你所需的全部是状态空间模型

本文以状态空间模型为基础，提出了一种用于语音分离的网络架构，即 SPMamba。通过将 TF-GridNet 模型的 Transformer 组件替换为双向 Mamba 模块，旨在捕捉更广泛的上下文信息。实验结果表明，基于 Mamba 的模型在性能方面发挥了重要作用，SPMamba 在建立在 Librispeech 数据集上的模型中表现出优越的性能，与 TF-GridNet 相比，在 SI-SNRi 方面提高了 2.42 dB。SPMamba 的源代码可在此 https URL 提交。

Apr, 2024

利用小型模型的多维深层结构状态空间方法进行语音增强

本文提出了一种多维结构化状态空间（S4）方法来增强语音，将多维的 S4 层进行白化变换以更好地捕捉跨频率轴的频谱依赖性，探索了几种基于 S4 的 T 和 TF 深层结构，其中，在 TF 领域中，与基于卷积层的传统 U 型模型相比，所提出的 S4 模型尺寸缩小了 78.6％，但在数据增强的情况下仍然达到了竞争性结果，具有较好的 PESQ 分数。

Jun, 2023

深度选择状态空间模型的理论基础

基于 Rough Path Theory，本研究证明了具备选择性机制的随机线性递归在输入控制条件下可产生低维投射的隐藏状态，并阐述了现代选择性状态空间模型的成功和未来 SSM 变体的表达能力。

Feb, 2024

单声道语音增强的脉冲结构状态空间模型

使用 Spiking Structured State Space Model（Spiking-S4）可以高效地从长时间语音序列中提取干净的语音，该方法将 Spiking Neural Networks（SNN）的能效与 Structured State Space Models（S4）的长程序列建模能力相结合，具有较少的计算资源要求，与现有的人工神经网络（ANN）方法相媲美。

Sep, 2023

序列建模的简化状态空间层

介绍了基于深度学习、HiPPO 形式和线性状态空间模型的结构化状态空间序列（S4）层，以及在其基础上引入了一种新的状态空间层 ——S5 层。与 S4 层使用多个独立的 SSM 相比，S5 层使用一个多输入、多输出的 SSM，从而实现了更高的计算效率和性能。S5 在长距离序列建模任务上达到了最新的最高性能，并使最难的 Path-X 任务的准确率达到了 98.5%。

Aug, 2022

基于对比学习和深度模块化的语音分离

研究使用对比学习建立框架的表示，并使用学到的表示在下游深度模块化任务中，自监督学习以最小化属于给定说话者的框架之间的距离，以进行语音分离。通过 WSJ0-2mix 和 WSJ0-3mix 的评估，该技术的性能不会随着说话者数量的增加而显着降低。

May, 2023

解缠态空间表示

介绍了一种名为分离状态空间模型（DSSM）的方法，并通过无监督的 VAE 训练过程将其应用于系统识别和回归以及跨领域序列表示学习中。通过该模型，可以显式分离领域不变状态动态和控制该动态的领域特定信息，以实现知识转移和鲁棒性预测、序列操作和领域表征。实验证明该模型在在线 ODE 系统识别和回归以及对不同重力影响下的弹球视频序列的生成和预测中具有竞争力的性能。

Jun, 2019

状态空间不足：机器翻译需要注意力

本文介绍了最近提出的序列模型 Structured State Spaces，以及将其应用于机器翻译任务中的实验。我们发现，与 Transformer 相比，S4 在翻译长句方面存在困难。最终我们提出加入注意力机制，使得 S4 的性能优于 Transformer。

Apr, 2023

大规模自监督学习的语音分离

本文探讨了如何扩大自监督学习（SSL）的规模，以更好地应用于语音分离问题。通过使用大量的预训练数据进行 fine-tuning，提出的模型在节省了 38% 计算成本的同时，相比于监督学习方法和基于 WavLM 的模型，在一些测试数据集上的单词错误率均有显著的改善。

Nov, 2022