PHASEN:一个考虑相位和谐波的语音增强网络
通过三种方式解决相位估计问题,提出了基于复数建模的 Deep Complex U-Net,极坐标复数掩蔽方法和新型的 wSDR 损失函数,在 Voice Bank 和 DEMAND 数据库上测试表明相对于之前的方法实现了最新的性能提升。
Mar, 2019
提出了一个基于噪声感知的训练框架,将增强语音引入到声学模型的多条件训练中,通过两个级联的神经结构来优化增强语音和语音识别,并取得了较好的实验结果。
Mar, 2022
通过利用较小的音频块作为输入,我们提出了一种名为 DPATD 的双相音频变压器模型,该模型组织了一个深层结构的变压器层以学习用于降噪的清洁音频序列。广泛的实验证明我们的模型优于现有技术方法。
Oct, 2023
本研究提出了一种名为 HiNet 的神经声码器,其通过分层预测振幅和相位谱从声学特征重建语音波形,包含振幅谱预测器(ASP)、相位谱预测器(PSP)以及基于神经源 - 滤波器波形生成器和相位提取器的 PSP。此外,我们还将生成对抗网络引入到 ASP 和 PSP 中。最终,ASP 和 PSP 的输出通过短时傅里叶合成结合生成 1s 语音波形的时间可大幅减少。
Jun, 2019
本文提出了一种基于 GAN 的语音合成方法 PhaseAug,该方法通过对每个频率进行相位旋转来模拟一对多映射,可以更好地实现语音合成,有效解决周期性伪影的问题。
Nov, 2022
该研究提出了一种基于非因果的扩张卷积和预测目标场而不是单个目标样本的、采用监督学习方式最小化回归损失的判别式模型适应方法,旨在进行语音去噪处理,比传统幅度谱法的维纳滤波法具有更好的计算性能和感知评估效果。
Jun, 2017
基于我们观察到的非稳态统计与相位信息的内在联系,我们提出了一种时间序列学习框架 PhASER,包括相位增强、分离特征编码、特征广播等元素,以增强学习模型对不同分布的泛化能力,通过在人类活动识别、睡眠阶段分类和手势识别等 5 个数据集上的广泛评估,我们证明 PhASER 相对于现有基线方法平均提高了 5% 的性能,在某些情况下提高了 13%,此外,PhASER 的原则可以广泛应用于提升现有时间序列分类模型的泛化能力。
Feb, 2024
本文提出了一种有效的相位重建策略,可以在嘈杂的环境中操作,通过将相位连续性损失考虑在最先进的神经语音增强系统中,本文证明了我们所提出的方法在训练过程中,可以显著提高增强语音信号的质量。
Feb, 2022
本文比较了基于短时傅里叶变换和时间域音频分离网络的两种不同的语音增强算法在不同数据集上的效果,提出了利用问题无关语音编码器特征的基于 STFT 的语音增强算法,通过在 Voice Bank+DEMAND 数据集上的实验验证,证明了该方法的有效性并在 DNS Challenge 数据集上表现出色,同时也开源了低延迟版本的 TasNet 算法。
May, 2020
本文提出了一种基于两个阶段的去噪系统,该系统通过将 CycleGAN 模型的估计强度与原始嘈杂的相位相结合来获得粗略增强的复杂光谱,并利用复杂光谱映射网络进一步抑制噪声成分和估计干净相位。实验结果表明,该方法在各种评估指标方面始终优于之前的单阶段 CycleGAN 和其他最先进的 SE 系统,尤其是在背景噪声抑制方面
Sep, 2021