Jan, 2024

基于知识的视觉问答的跨模态检索

TL;DR基于知识的视觉问答(VQA)涉及使用多模态知识库的信息检索,命名实体的多样化视觉表现使其难以识别,我们认为跨模态检索可能有助于弥合实体与其描述之间的语义差距,对单模态检索产生互补作用,通过对最近的 ViQuAE、InfoSeek 和 Encyclopedic-VQA 数据集上的实验,我们提供了经验证据。此外,我们研究了三种不同的模型微调策略:单模态、跨模态或联合训练。我们的方法结合了单模态和跨模态检索,与三个数据集上的数十亿参数模型相竞争,同时在概念上更简单、计算上更廉价。