Aug, 2024

SpeechCaps:通过多说话者语音风格注释推进基于指令的通用语音模型

TL;DR本研究针对基于指令的语音处理中的任务多样性不足的问题,提出了一种新颖的多说话者语音风格注释任务,以增强对说话者及节奏信息的理解。研究发现,该模型经过此注释任务预训练后,能够显著提升说话者和情感识别的性能,对下游任务具有潜在重大影响。