Nov, 2022

基于双向注意力的语音文本多模态训练,提高语音识别能力

TL;DR采用双向注意力机制的多模态学习方法,能够有效地提升语音表示的语言信息,增强文本的语音表示,从而使共享的 ASR 模型更适用于无配对的文本数据预训练,仅使用配对数据学习时,单词错误率减少了 6.15%,使用更多无配对文本数据时,错误率减少了 9.23%。