Aug, 2024
SpeechCaps:通过多说话者语音风格注释推进基于指令的通用语音模型
SpeechCaps: Advancing Instruction-Based Universal Speech Models with
Multi-Talker Speaking Style Captioning
TL;DR本研究针对基于指令的语音处理中的任务多样性不足的问题,提出了一种新颖的多说话者语音风格注释任务,以增强对说话者及节奏信息的理解。研究发现,该模型经过此注释任务预训练后,能够显著提升说话者和情感识别的性能,对下游任务具有潜在重大影响。