Jun, 2023

预训练多模态密集检索器用于视觉问答中的外部知识

TL;DR本文研究了外部知识可视化问题回答的一类任务,提出了一种自动数据生成流程以预训练用于 OK-VQA 任务的通道检索模型,该方法相较于当前最先进的不对称体系结构提供了 26.9%的 Precision@5 改进,并且在零 - shot 检索方案中表现出良好的能力。