Oct, 2023

基于开放集和知识的视觉问答与推理路径

TL;DR知识引导的视觉问题回答(KB-VQA)通过外部知识库的辅助,为图像和相关的文本问题提供正确答案。本文提出了一种名为 Graph pATH rankER(GATHER)的新型 KB-VQA 框架,通过构建图、修剪和路径级别排序,不仅能够准确检索答案,还提供解释推理过程的路径。通过在真实世界问题上的广泛实验,证明了该框架不仅能够在整个知识库上进行开放式问题回答,还能提供明确的推理路径。