因果推断为基础的神经语音增强中的推断和去噪
本文提出了一种噪声感知语音增强方法,通过噪声分类模型提取噪声特定信息来指导扩散模型中的逆向去噪过程,并采用多任务学习模式来优化增强和分类任务,实验表明该方法在 VoiceBank-DEAMND 数据集上的性能显著优于多种扩散型语音增强方法,尤其是在未知噪声上表现出较好的泛化性能。
Jul, 2023
本文提出了一种基于去噪声码器的语音增强方法,利用自监督学习获取语音的相关特征,并采用最佳的自监督学习配置,采用对抗训练方式进行声音去噪,最终实现了一种具备实时能力、优化了客观指标并超越了当前最先进的语音增强模型的方案。
Nov, 2022
利用条件生成对抗网络(cGANs)从噪声语音的谱图到增强副本,将其应用于语音增强(SE)中,并以感知语音质量(PESQ)、短时客观可懂度(STOI)和说话人验证等方面进行评估。实验结果显示,cGAN 方法整体上优于传统的 STSA-MMSE SE 算法,并且与基于深度神经网络的 SE 方法 (DNN-SE) 相当。
Sep, 2017
该研究提出了一种新颖的噪声自适应语音增强系统,该系统采用领域对抗训练方法解决训练和测试条件之间的噪声类型不匹配问题。实验结果表明,相较于没有自适应的 SE 系统,该系统在 PESQ、SSNR 和 STOI 方面可实现显著改善。
Jul, 2018
该论文提出一种名为 SN-Net 的基于卷积神经网络的方法,通过引入多个交互模块,在中间的特征通道处同时建立对语音和噪声的模型。同时,利用残差卷积和注意力模块来捕获时间和频率特征,提高模型识别能力,在多项评估指标上优于现有最新技术,并对说话者分离具有卓越的性能表现。
Dec, 2020
本研究提出了一种基于编码器 - 解码器结构、包含跳跃连接、优化时间和频域的多损失函数的实时语音增强模型,可直接处理原始波形并消除各种背景噪音及实现房间回声,进行了多项标准测试,且通过数据扩增进一步完善模型性能及泛化能力,达到了最先进的性能。
Jun, 2020
提出了一个基于噪声感知的训练框架,将增强语音引入到声学模型的多条件训练中,通过两个级联的神经结构来优化增强语音和语音识别,并取得了较好的实验结果。
Mar, 2022
个性化语音增强模型通过适应说话者的语音特征,可以提高远程会议系统的音频质量。然而,大多数现有方法需要独立的说话者嵌入模型从注册音频中提取说话者的向量表示,这增加了训练和部署过程的复杂性。我们提出使用个性化语音增强模型本身的内部表示作为说话者嵌入,从而避免了需要独立模型的需求。我们证明我们的方法在降噪和消除回声任务上表现出与使用预训练的说话者嵌入模型的标准方法相同或更好的效果。此外,我们的方法在 2023 年 ICASSP 深度噪声抑制挑战中比冠军的平均观点分高 0.15。
Jun, 2024
本研究提出了 DenoiSpeech 系统,它可以处理具有高噪声变异的实际世界噪声,使用细粒度的帧级噪声建模噪声条件模块与 TTS 模型共同训练,实验结果表明,DenoiSpeech 在真实环境数据上的性能要优于之前提出的两种方法 0.31 和 0.66 MOS。
Dec, 2020
通过引入均方误差损失(MSE)来改善扩散训练目标,度量在逆向过程迭代中预测的增强语音与真实干净语音之间的差异,提出了一种增强语音的方法,实验证明其有效性。
Sep, 2023