Jun, 2022

可轉移音素嵌入的少樣本跨語言語音合成

TL;DR本文研究一种可转移的音位嵌入框架,旨在解决少样本跨语言语音合成问题。在 8 分钟以下数据提供的极少样本情况下,作者提出了包括基于音位 TTS 模型和码本模块在内的框架。通过利用音位级平均的自我监督学习特征,实现了合成语音质量的有效改进。实验证明,使用 30 秒左右数据就能够合成出可理解的说话声音。