Jan, 2024

利用语音克隆对印度语言进行规模化的 NVIDIA 多说话人多语音 TTS 系统

TL;DR本文介绍了 NVIDIA 为 2024 年 MMITS-VC 挑战赛开发的 TTS 模型。在 Track 1 和 Track 2 中,我们利用 RAD-MMM 进行少样本 TTS 并在目标说话者数据上额外训练 5 分钟。在 Track 3 中,我们利用 P-Flow 进行零样本 TTS,同时训练挑战数据集和外部数据集,并使用 HiFi-GAN 声码器进行所有提交。RAD-MMM 在 Track 1 和 Track 2 上表现具有竞争力,而 P-Flow 在 Track 3 上排名第一,得分为 4.4 的平均意见分数 (MOS) 和 3.62 的说话者相似度分数 (SMOS)。