EMNLPOct, 2020

多模式语音识别的细粒度对齐

TL;DR本篇研究使用自动物体提议从图像的不同区域提取更精细的视觉信息,以改善多模式自动语音识别的效果并增强对语音中覆盖物的实体恢复能力。实验表明该模型可以定位正确的提议,提取更多的相关单词(如形容词),进而实现更好的识别效果。