Jan, 2024

基于数据驱动的字素到音素表示的无词典文本转语音

TL;DR通过使用自监督学习的最新进展,本文消除了使用固定表示而非数据驱动的方法生成专家词典的问题,将其应用于无词典的文本转语音系统中,与基于专家词典的方法相比,在没有语言专业知识的前提下达到甚至略优的声音质量。