利用小型模型的多维深层结构状态空间方法进行语音增强

Jun, 2023

利用小型模型的多维深层结构状态空间方法进行语音增强

A Multi-dimensional Deep Structured State Space Approach to Speech Enhancement Using Small-footprint Models

Pin-Jui Ku, Chao-Han Huck Yang, Sabato Marco Siniscalchi, Chin-Hui Lee

TL;DR本文提出了一种多维结构化状态空间（S4）方法来增强语音，将多维的 S4 层进行白化变换以更好地捕捉跨频率轴的频谱依赖性，探索了几种基于 S4 的 T 和 TF 深层结构，其中，在 TF 领域中，与基于卷积层的传统 U 型模型相比，所提出的 S4 模型尺寸缩小了 78.6％，但在数据增强的情况下仍然达到了竞争性结果，具有较好的 PESQ 分数。

Abstract

We propose a multi-dimensional structured state space (S4) approach to speech enhancement. To better capture the spectral dependencies across the frequency axis, we focus on modifying the multi-dimensional s4 layer

speech enhancement multi-dimensional structured state space s4 layer whitening transformation deep architectures

发现论文，激发创造

单声道语音增强的脉冲结构状态空间模型

使用 Spiking Structured State Space Model（Spiking-S4）可以高效地从长时间语音序列中提取干净的语音，该方法将 Spiking Neural Networks（SNN）的能效与 Structured State Space Models（S4）的长程序列建模能力相结合，具有较少的计算资源要求，与现有的人工神经网络（ANN）方法相媲美。

Sep, 2023

一种基于神经状态空间模型的高效语音分离方法

提出了一种基于神经状态空间模型的高效音频分离框架 S4M，该模型可以将输入信号建模为线性常微分方程的形式，并在多尺度表示学习中学习全局一致的分离和重构，其模型复杂度显著低于 Attention-based Sepformer。

May, 2023

利用结构化状态空间模型增强在线语音识别的构型

在线语音识别中，通过将结构化状态空间序列模型（S4）与卷积相结合，可以提高神经编码器的性能并实现更低的识别错误率。

Sep, 2023

小型印记深度学习的结构变换

提出了一种基于低位移秩概念的结构化变换方法，能快速优化深度学习模型在储存和功耗受限移动设备上的部署，通过参数共享的各种配置实现结构化到非结构化的统计建模，并在关键词检测应用中显著提高推理速度和轻量化程度，表现优于目前的技术。

Oct, 2015

面向实时深度噪声抑制的高效模型

本文研究深度学习模型在语音增强方面的应用，并探讨了网络复杂度与可达到的语音质量之间的关系，考虑了网络在回声环境下的训练。研究表明，网络的复杂度是影响语音质量的一个重要因素。

Jan, 2021

基于 Wave-U-Net 的语音增强改进

研究了 Wave-U-Net 结构在语音增强中的应用，发现其在时域直接建模可以考虑大的时间上下文信息的特点下，可以在 Voice Bank corpus（VCTK）数据集上的语音增强任务中提高 PESQ、CSIG、CBAK、COVL 和 SSNR 多个指标，相比于其原始的音乐中唱声分离系统而言，基于少量隐藏层的结构更适合语音增强，该结果为进一步探索语音增强在时域中的应用提供了鼓舞人心的信号，并可以作为语音识别系统的预处理步骤。

Nov, 2018

语音识别的多头状态空间模型

本文提出了一种带有特殊门控机制的多头状态空间（MH-SSM）架构，它可以作为多头注意力在转换器编码器中的替代品，在对于序列数据的处理中能够比转换器转录器更好地优化带来的结果，在 LibriSpeech 语音识别数据集上提高了性能。同时，我们将 MH-SSMs 层与转换器块相结合，成为 Stateformer，且无需使用外部语言模型，在 LibriSpeech 任务中实现了最先进的性能，其开发和测试集上的字错率分别为 1.76％/4.37％和 1.91％/4.36％。

May, 2023

状态空间不足：机器翻译需要注意力

本文介绍了最近提出的序列模型 Structured State Spaces，以及将其应用于机器翻译任务中的实验。我们发现，与 Transformer 相比，S4 在翻译长句方面存在困难。最终我们提出加入注意力机制，使得 S4 的性能优于 Transformer。

Apr, 2023

序列建模的简化状态空间层

介绍了基于深度学习、HiPPO 形式和线性状态空间模型的结构化状态空间序列（S4）层，以及在其基础上引入了一种新的状态空间层 ——S5 层。与 S4 层使用多个独立的 SSM 相比，S5 层使用一个多输入、多输出的 SSM，从而实现了更高的计算效率和性能。S5 在长距离序列建模任务上达到了最新的最高性能，并使最难的 Path-X 任务的准确率达到了 98.5%。

Aug, 2022

无状态推断的状态空间模型：传递函数方法

我们通过它的对偶表示 - 传递函数，设计了一种适用于深度学习应用的状态空间模型，并揭示了一种高度有效的序列并行推理算法，该算法是无状态的，与状态大小的增加相比，不会产生任何显著的内存和计算开销。

May, 2024