Sep, 2018

基于注意力机制的视听融合在强鲁棒性自动语音识别中的应用

TL;DR本文提出了一种音频视觉融合策略,该策略不仅可以超越简单的特征连接,而且可以自动地对齐两种方式,具有提高语音识别准确性的增强表示,特别适合干扰噪声环境中的识别任务,并且可以推广到许多涉及相关模态的多模态任务中。