Apr, 2023

一种对称双编码密集检索框架用于知识密集型视觉问答

TL;DR本研究提出一种将检索器和阅读器相结合的新 KI-VQA 流程,并通过 DEDR 和 MM-FiD 两种方法进行知识密集型视觉问答 (KI-VQA) 任务,在两个著名的 KI-VQA 数据集 OK-VQA 和 FVQA 上进行了广泛评估,证明了该方法在准确率上优于现有技术。