Nov, 2018

端到端音视频语音识别的模态注意力

TL;DR该研究提出了一种基于多模态注意力的音视频语音识别方法,该方法使用了最先进的 Seq2seq 架构,基于它们的重要性自动学习了来自两种模态的混合表示,并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高,相比传统的特征级联方法,在清洁和嘈杂的条件下均能获得更好的识别性能,可以轻松地推广到其他多模态任务中。