Nov, 2022

MMSpeech: 面向语音识别的多模态多任务编码器解码器预训练

TL;DR该论文提出了一种新的多模态多任务编码 - 解码器预训练框架 (MMSpeech), 用于汉语自动语音识别 (ASR), 该框架同时使用了未标注语音和文本数据,其中引入了音素模态来帮助捕捉汉语音频和文本之间的模态不变信息。通过在 AISHELL-1 数据集上的实验,该方法实现了最先进的性能,较其他预训练方法相对提高了超过 40%。