Oct, 2020

面向文本视觉问答的定位感知答案预测

TL;DR本文提出了一种基于局部信息的答案预测网络,即LaAP-Net,用于解决现有基于光学字符识别(OCR)或固定词汇的文本VQA系统中的局限性,其中定位信息得到了更好的利用。此外,提出了一种多模式融合技术,即COR,为定位任务提供了额外的上下文信息。LaAP-Net在三个基准数据集上的表现比现有方法都要好。