ACLJun, 2019

通过参考生成的段落标题来提高视觉问答能力

TL;DR提出了一种视觉和文本问题回答(VTQA)模型,该模型使用自动生成的段落式标题来丰富图像的信息以帮助正确回答视觉问题,并使用交叉融合和基于强化学习的编码器解码器模型实现跨模态融合。模型在 Visual Genome 数据集上进行训练,显著提高了现有模型的性能。