May, 2023
M2-CTTS: 端到端的多尺度、多模态会话文本到语音合成
M2-CTTS: End-to-End Multi-scale Multi-modal Conversational Text-to-Speech Synthesis
Jinlong Xue, Yayue Deng, Fengping Wang, Ya Li, Yingming Gao...
TL;DR提出了一种多尺度,多模态会话文本到语音系统(M2-CTTS),用于综合利用历史会话并增强韵律表达,通过考虑文本和声学因素的粗粒度和细粒度建模,并混合细粒度上下文信息及声学特征,实现了更好的韵律表现和自然度。