Jun, 2023

从图像池中挖掘答案:走向基于检索的视觉问答

TL;DR本文介绍了一种针对多张图片中远程问答的视觉问答模型,并提出了一个名为 RETVQA 的具有多图和检索需求的新数据集,使用 MI-BART 模型在该数据集上取得了良好的表现。