Nov, 2023

Diff-HierVC: 基于扩散的层次化语音转换技术,具备鲁棒的声调生成和掩蔽式先验用于零样本说话人自适应

TL;DRDiff-HierVC 是一种基于两个扩散模型的分层语音转换系统,通过 DiffPitch 有效地生成具有目标音色的 F0,然后使用 DiffVoice 将语音转换为目标音色,通过源 - 滤波器编码器进行信息分离,并在 DiffVoice 中使用转换后的 Mel 频谱图作为数据驱动先验,从而提高语音风格转换能力,通过扩散模型中的遮罩先验,提高说话者适应质量。实验结果验证了 Diff-HierVC 在音高生成和语音风格转换性能上的优越性,在零样本语音转换场景中,其 CER 为 0.83%,EER 为 3.29%。