Jan, 2023

面向基于知识的视觉问答的多模式逆填空任务

TL;DR本文提出一种基于预训练的多模态逆推理任务方法,用于解决基于知识库的视觉问答,该方法适用于不同的神经网络架构,相比于没有预训练的基准模型,检索和阅读理解的相对 MRR 和相对 F1 分别提高了 9% 和 15%。