ACLOct, 2021
SpeechT5:面向口语语言处理的统一模态编解码预训练
SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing
Junyi Ao, Rui Wang, Long Zhou, Chengyi Wang, Shuo Ren...
TL;DR本文介绍了一种名为 SpeechT5 的统一多模态语音文本表示学习框架,该框架采用编码器 - 解码器预训练的方法进行自监督学习,具有包括自动语音识别、语音合成、语音翻译、语音增强和说话人识别在内的广泛的口语处理任务上的卓越性能。