Feb, 2024
基于语音韵律从音素和音素时长中提取说话人嵌入的多说话人语音合成
Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and Phoneme Duration for Multi-Speaker Speech Synthesis
Kenichi Fujita, Atsushi Ando, Yusuke Ijima
TL;DR该论文提出了一种基于语音节奏的说话者嵌入方法,用于使用目标说话者的少量话语对音素持续时间进行建模。