Jan, 2024

Pheme:高效且会话式的语音生成

TL;DR在这项研究中,我们介绍了 Pheme 模型系列,它提供了紧凑而高性能的模型,能够并行生成自然对话式语音,并且可以高效地在较小规模的对话数据上进行训练,降低数据需求 10 倍以上,但仍能与自回归 TTS 模型的质量相匹配。我们还展示了通过简单的教师 - 学生蒸馏,在预训练的 Pheme 检查点的基础上,通过仅依靠更大的教师模型生成的合成语音,在单说话者设置上获得声音质量的显著改进。在线提供音频样本和预训练模型。