改进深度语音增强的可微一致性约束

Nov, 2018

改进深度语音增强的可微一致性约束

Differentiable Consistency Constraints for Improved Deep Speech Enhancement

Scott Wisdom, John R. Hershey, Kevin Wilson, Jeremy Thorpe, Michael Chinen...

TL;DR该研究论文探讨了如何通过为语音增强网络添加不同的可微投影层来同时实现短时傅里叶变换 (STFT) 和混合一致性，并进一步提高纵向尺度不变信号 - 失真比 (SI-SDR)。

Abstract

In recent years, deep networks have led to dramatic improvements in speech enhancement by framing it as a data-driven pattern recognition problem. In many modern enhancement systems, large amounts of data are used to train a deep network to estimate masks for complex-valued short-time

deep networks speech enhancement stft consistency mixture consistency complex-valued masks

发现论文，激发创造

基于展开迭代相位重建的端到端语音分离

本研究提出了一种基于深度学习的端到端方法用于解决单通道无特定说话人的多人语音分离问题，通过利用时间 - 频率的掩蔽，短时傅里叶变换以及它的逆变换嵌入到深层网络中，通过在重建信号上直接计算损失函数来解决之前存在的位移不一致导致的重构误差问题，同时通过多次展开的反相位恢复算法进行训练，使用新的激活函数允许掩蔽值超过 1，在公开可用的数据集上取得了目前最先进的分离效果。

Apr, 2018

一种感知动机的方法用于低复杂度、实时完整语音的增强

本文提出了一种称之为 PercepNet 的用于语音增强的深度学习方法，该方法仅需要短时间的傅里叶变换，通过聚焦于语音的谱包络和周期性，可以实现高质量、实时的全频带语音增强，仅需要不到 5% 的 CPU 核心。

Aug, 2020

通用音频分离

该研究使用深度学习模型进行了基于掩蔽的语音信号增强和分离任务的研究，并尝试将其应用到任意类型混音的分离任务中，即通用声音分离。在此过程中，作者比较了不同的分析合成基础和网络结构，其中长短时记忆网络和时延卷积堆栈是采用时间域增强网络（ConvTasNet）的架构，对于后者，作者还提出了一些新的改进方法来进一步提高分离性能。最后，作者的研究表明，短时傅立叶变换（STFT）在通用声音分离方面表现优异，而在语音 / 非语音分离方面，长窗口的 STFT（25-50 毫秒）效果明显好于短窗口（2.5 毫秒），对于可学习的基础来说，短窗口（2.5 毫秒）一直是最佳选择。作者的最佳方法在语音 / 非语音分离和通用声音分离方面都取得了显著的信号失真比的提高。

May, 2019

基于深度复数 U-Net 的相位感知语音增强

通过三种方式解决相位估计问题，提出了基于复数建模的 Deep Complex U-Net，极坐标复数掩蔽方法和新型的 wSDR 损失函数，在 Voice Bank 和 DEMAND 数据库上测试表明相对于之前的方法实现了最新的性能提升。

Mar, 2019

探索基于时域卷积网络的 DNN 语音增强的最佳损失函数

本文比较了基于短时傅里叶变换和时间域音频分离网络的两种不同的语音增强算法在不同数据集上的效果，提出了利用问题无关语音编码器特征的基于 STFT 的语音增强算法，通过在 Voice Bank+DEMAND 数据集上的实验验证，证明了该方法的有效性并在 DNS Challenge 数据集上表现出色，同时也开源了低延迟版本的 TasNet 算法。

May, 2020

通过语音链重建和自我转录改进半监督序列到序列自动语音识别的一致性训练

本文提出了一种改进的半监督序列到序列自动语音识别的一致性训练范式，利用音频链重构作为弱增强来生成高质量的伪标签，并证明了学生 ASR 模型产生的动态伪转录文本有助于一致性训练。实验结果显示，相对于监督基线，我们的改进范例在单说话者和多说话者情况下分别获得了 12.2% 和 38.6% 的 CER 提升。

May, 2022

利用小型模型的多维深层结构状态空间方法进行语音增强

本文提出了一种多维结构化状态空间（S4）方法来增强语音，将多维的 S4 层进行白化变换以更好地捕捉跨频率轴的频谱依赖性，探索了几种基于 S4 的 T 和 TF 深层结构，其中，在 TF 领域中，与基于卷积层的传统 U 型模型相比，所提出的 S4 模型尺寸缩小了 78.6％，但在数据增强的情况下仍然达到了竞争性结果，具有较好的 PESQ 分数。

Jun, 2023

少即是多：遮盖帧建模实现一致的视频深度估计

通过邻近帧预测掩蔽帧的深度，使用 FMNet 可以学习内在的帧间相关性，从而实现时间上的一致性，具有与之前方法相当的空间准确性和更高的时间一致性。

Jul, 2022

CoMoSpeech: 一步语音和歌唱声音合成的一致性模型

本文提出了一种基于一致性模型的语音合成方法 CoMoSpeech，采用单一扩散采样步骤实现语音合成。实验表明，CoMoSpeech 的推理速度比现实时间快 150 倍以上，并且在文本转语音和歌唱声音合成方面具有最佳音频质量。

May, 2023

实时全频段语音增强的混合 DSP / 深度学习方法

本研究提出了一种基于深度学习和数字信号处理混合的方法来实现噪声抑制，该方法使用了四层隐含层的深度神经网络来估计关键频带增益，并采用传统的基音滤波器抑制谐波之间的噪声，相比于传统的最小均方误差谱估计，该方法获得了显著更高的质量，在复杂度低到足以实现 48kHz 实时处理的低功耗处理器上。

Sep, 2017