Feb, 2023

使用预训练语言模型的时长感知暂停插入多说话人文本转语音

TL;DR本文提出一种基于预训练语言模型的更加高效的暂停插入框架,运用双向变压器编码器表示来注入演讲者嵌入以捕捉不同演讲者的特点,并使用持续时间感知的暂停插入以获得更自然的多人演讲,测试结果表明该模型提高了合成语音的节奏性、暂停插入的精度和召回率。