ACLOct, 2021

SpeechT5:面向口语语言处理的统一模态编解码预训练

TL;DR本文介绍了一种名为 SpeechT5 的统一多模态语音文本表示学习框架,该框架采用编码器 - 解码器预训练的方法进行自监督学习,具有包括自动语音识别、语音合成、语音翻译、语音增强和说话人识别在内的广泛的口语处理任务上的卓越性能。