因果推断为基础的神经语音增强中的推断和去噪

Nov, 2022

因果推断为基础的神经语音增强中的推断和去噪

Inference and Denoise: Causal Inference-based Neural Speech Enhancement

Tsun-An Hsieh, Chao-Han Huck Yang, Pin-Yu Chen, Sabato Marco Siniscalchi, Yu Tsao

TL;DR该论文提出了一种基于因果推断范式的语音增强方法，使用噪声检测器将噪声存在建模为干预因素，通过两个基于掩蔽的增强模块进行噪声条件下的分离，建立了特定的平均处理效应来量化因果效应，并在实验证明了该方法的高效性和优越性。

Abstract

This study addresses the speech enhancement (SE) task within the causal inference paradigm by modeling the noise presence as an intervention. Based on the potential outcome framework, the proposed →

speech enhancement causal inference potential outcome framework mask-based enhancement modules noise detector

发现论文，激发创造

噪声感知语音增强处理技术 —— 基于扩散概率模型

本文提出了一种噪声感知语音增强方法，通过噪声分类模型提取噪声特定信息来指导扩散模型中的逆向去噪过程，并采用多任务学习模式来优化增强和分类任务，实验表明该方法在 VoiceBank-DEAMND 数据集上的性能显著优于多种扩散型语音增强方法，尤其是在未知噪声上表现出较好的泛化性能。

Jul, 2023

通过合成进行语音增强的自监督学习

本文提出了一种基于去噪声码器的语音增强方法，利用自监督学习获取语音的相关特征，并采用最佳的自监督学习配置，采用对抗训练方式进行声音去噪，最终实现了一种具备实时能力、优化了客观指标并超越了当前最先进的语音增强模型的方案。

Nov, 2022

用于语音增强和抗噪声说话人验证的条件生成对抗网络

利用条件生成对抗网络（cGANs）从噪声语音的谱图到增强副本，将其应用于语音增强（SE）中，并以感知语音质量（PESQ）、短时客观可懂度（STOI）和说话人验证等方面进行评估。实验结果显示，cGAN 方法整体上优于传统的 STSA-MMSE SE 算法，并且与基于深度神经网络的 SE 方法 (DNN-SE) 相当。

Sep, 2017

利用领域对抗训练的噪声自适应语音增强

该研究提出了一种新颖的噪声自适应语音增强系统，该系统采用领域对抗训练方法解决训练和测试条件之间的噪声类型不匹配问题。实验结果表明，相较于没有自适应的 SE 系统，该系统在 PESQ、SSNR 和 STOI 方面可实现显著改善。

Jul, 2018

交互式语音和噪声模型用于语音增强

该论文提出一种名为 SN-Net 的基于卷积神经网络的方法，通过引入多个交互模块，在中间的特征通道处同时建立对语音和噪声的模型。同时，利用残差卷积和注意力模块来捕获时间和频率特征，提高模型识别能力，在多项评估指标上优于现有最新技术，并对说话者分离具有卓越的性能表现。

Dec, 2020

波形域中的实时语音增强

本研究提出了一种基于编码器 - 解码器结构、包含跳跃连接、优化时间和频域的多损失函数的实时语音增强模型，可直接处理原始波形并消除各种背景噪音及实现房间回声，进行了多项标准测试，且通过数据扩增进一步完善模型性能及泛化能力，达到了最先进的性能。

Jun, 2020

面向鲁棒语音识别的语音增强和噪音感知网络

提出了一个基于噪声感知的训练框架，将增强语音引入到声学模型的多条件训练中，通过两个级联的神经结构来优化增强语音和语音识别，并取得了较好的实验结果。

Mar, 2022

个性化语音增强无需独立的说话人嵌入模型

个性化语音增强模型通过适应说话者的语音特征，可以提高远程会议系统的音频质量。然而，大多数现有方法需要独立的说话者嵌入模型从注册音频中提取说话者的向量表示，这增加了训练和部署过程的复杂性。我们提出使用个性化语音增强模型本身的内部表示作为说话者嵌入，从而避免了需要独立模型的需求。我们证明我们的方法在降噪和消除回声任务上表现出与使用预训练的说话者嵌入模型的标准方法相同或更好的效果。此外，我们的方法在 2023 年 ICASSP 深度噪声抑制挑战中比冠军的平均观点分高 0.15。

Jun, 2024

DenoiSpeech：基于帧级噪声建模的去噪语音合成

本研究提出了 DenoiSpeech 系统，它可以处理具有高噪声变异的实际世界噪声，使用细粒度的帧级噪声建模噪声条件模块与 TTS 模型共同训练，实验结果表明，DenoiSpeech 在真实环境数据上的性能要优于之前提出的两种方法 0.31 和 0.66 MOS。

Dec, 2020

基于扩散的语音增强与带权的生成 - 监督学习损失

通过引入均方误差损失（MSE）来改善扩散训练目标，度量在逆向过程迭代中预测的增强语音与真实干净语音之间的差异，提出了一种增强语音的方法，实验证明其有效性。

Sep, 2023