Mar, 2024

关于基于提示条件的语音合成的语言模型的实证研究

TL;DR研究报告通过对自动回归 (AR) 和非自动回归 (NAR) 语音语言模型的实证研究,为提示设计和内容语义单元提供了深入洞察。分析表明,异构和非平稳的提示对音频质量有害,与之前发现提醒较长始终会产生更好的合成的结论形成对比。此外,我们发现除了提示外,合成音频的说话者风格还受到内容的影响。我们进一步展示了语义单元携带丰富的声学信息,如音高、节奏、音量和语音强调,这些信息可能从内容泄露到合成音频中。