Oct, 2023
基于开放集和知识的视觉问答与推理路径
Open-Set Knowledge-Based Visual Question Answering with Inference Paths
TL;DR知识引导的视觉问题回答(KB-VQA)通过外部知识库的辅助,为图像和相关的文本问题提供正确答案。本文提出了一种名为Graph pATH rankER(GATHER)的新型KB-VQA框架,通过构建图、修剪和路径级别排序,不仅能够准确检索答案,还提供解释推理过程的路径。通过在真实世界问题上的广泛实验,证明了该框架不仅能够在整个知识库上进行开放式问题回答,还能提供明确的推理路径。