Dec, 2022

REVEAL:基于检索增强的多源多模态知识记忆的视觉语言预训练

TL;DR本文提出了一种端到端检索增强的视觉语言模型(REVEAL),它可以将世界知识编码到大规模存储器中,并从中检索以回答知识密集型查询。