Nov, 2020
听觉、视觉与思考:基于预训练的文本 - 视频表示的视觉上下文感知语音识别
Listen, Look and Deliberate: Visual context-aware speech recognition using pre-trained text-video representations
Shahram Ghorbani, Yashesh Gaur, Yu Shi, Jinyu Li
TL;DR本研究致力于解决利用视觉信号来提高语音识别(ASR)的问题,探讨了一种基于自监督预训练的文本视频嵌入模型的视觉上下文感知 ASR 方法,该方法包括多流注意力结构和熟思(deliberation)模型,利用视觉信息的熟思模型比多流模型在干扰噪声下提高了语音识别正确率和恢复被屏蔽单词的准确率。