Jun, 2024

PolySpeech: 探索统一的多任务语音模型以与单任务模型竞争

TL;DR该研究提出了一种多任务语音模型 (PolySpeech),支持语音识别、语音合成和两个语音分类任务。PolySpeech 通过引入多模态语言模型作为核心结构,并使用语义表示作为语音输入,实现了多模态优化。实验结果表明,多任务优化在特定任务上表现出可与单任务优化相比的性能,并在各种任务中显示出与单任务模型相媲美的竞争力。