Jun, 2024

低资源情景下 TTS 系统的语言适应初探

TL;DR本文探讨了基于自监督学习 (SSL) 多语言模型的 ZMM-TTS 语言适应能力,研究发现了预训练语言和目标语言的语音学相似性、语言类别、微调数据集大小以及说话人数量对适应性的影响,并且发现相对于配对数据,仅音频数据在微调中并不总是最优选择。同时,研究还包括了说话人相似度、语言识别以及预测的 MOS。