Aug, 2023

EXPRESSO:离散表达性语音重新合成的基准和分析

TL;DR我们介绍了Expresso,这是一个高质量的表达性语音数据集,用于无文字语音合成,其中包括使用26种自发表达的风格渲染的朗读语音和即兴对话。我们通过一个表达性再合成基准来说明该数据集的挑战和潜力,其中的任务是在保持内容和风格的同时,使用低比特率单位对输入进行编码并在目标语音中重新合成。我们使用自动度量标准评估了不同自我监督离散编码器的合成质量,并探讨了质量、比特率和对说话人和风格的不变性之间的权衡。所有数据集、评估指标和基线模型均为开源。