基于扩散概率模型的语音增强度量化方法
通过引入均方误差损失(MSE)来改善扩散训练目标,度量在逆向过程迭代中预测的增强语音与真实干净语音之间的差异,提出了一种增强语音的方法,实验证明其有效性。
Sep, 2023
通过一个可微的近似 PESQ 函数训练语音增强模型,可以提高 PESQ 得分(相对于用 MSE loss 训练的结果增加了 0.18 分),同时保持语音可懂性。
May, 2019
本文提出了一种噪声感知语音增强方法,通过噪声分类模型提取噪声特定信息来指导扩散模型中的逆向去噪过程,并采用多任务学习模式来优化增强和分类任务,实验表明该方法在 VoiceBank-DEAMND 数据集上的性能显著优于多种扩散型语音增强方法,尤其是在未知噪声上表现出较好的泛化性能。
Jul, 2023
本研究提出一种基于完全卷积神经网络 (FCN) 的语音增强框架,通过对话语的优化来实现时域相关性信息的全面考虑,以降低模型优化和评价指标之间的差距。该框架进一步将 STOI 度量引入模型优化中,因此人类主体和自动语音识别系统对增强的语音的可懂度得到显著提高,而这一指标优于传统的 MMSE 优化方案。
Sep, 2017
该研究介绍了多任务伪标签(MPL)学习在非侵入性语音质量评估模型中的应用,通过两个阶段获得伪标签分数和进行多任务学习,实验证明了 MPL 相较于从零开始训练模型和使用知识传递机制的优势,并验证了 Huber 损失函数在提高 MTQ-Net 预测模型的能力方面的益处,最终 MTQ-Net 采用 MPL 方法展示了较其他基于 SSL 的语音评估模型更高的整体预测能力。
Aug, 2023
通过对音频增强模型进行评估指标的分析,本篇论文旨在揭示将音频增强模型过度拟合于评估指标可能带来的风险,以及如何利用其他评估指标来确认性能预测。
Jun, 2024
本文研究了语音增强中使用自我监督语音表示来帮助神经语音增强模型训练的方法,指出清洁和嘈杂语音特征编码之间的距离与语音质量和可懂性的心理声学测量值以及人类的平均意见分数(MOS)密切相关,并通过使用该距离作为损失函数的实验证明了相对于来自语音增强文献的常见损失函数的 STFT 频谱图距离损失,以及其他损失函数的性能。
Jan, 2023
研究发现,基于预测和生成两种模型训练的语音增强模型会对干扰和非干扰性能指标表现出不同的相关性,促使人们寻找更完整、不偏不倚的语音增强性能测量标准。
Jun, 2023
该研究通过对先前基于自监督学习的 MOS 预测模型进行数据、训练和后训练的特定改进,并采用多种技术评估其有效性,包括 wav2vec 2.0 模型、转移学习、不同的批处理方法和方法的量化等,实现自动预测 MOS 值。
Apr, 2022