Apr, 2023

检索式知识增强视觉语言预训练

TL;DR该篇论文提出了一种基于知识图谱的视觉语言预训练模型 (REAVL),能够检索多模态数据中的世界知识,并结合多模态数据和知识来完成预训练,以提高视觉语言理解和多模态实体链接任务的性能。