Jun, 2024

基于发音器官学的可控表情语音合成

TL;DR通过声音的产生水平,我们以声韵学为基础,定义了一个由声门化、紧张度和共振三个维度构成的框架(GTR),来研究表达性语音合成,记录了一个包含 20 个中文句子以及 125 个不同 GTR 组合的高质量语音数据集(GTR-Voice),并通过自动分类和听力测试验证了该框架和 GTR 注释的精确可控性,并在两个经过微调的表达性 TTS 模型上展示了 GTR 维度上的精确控制能力,同时也开源了数据集和 TTS 模型。