Apr, 2024

发现差距:面向视觉问答的知识库推理

TL;DR我们分析了基于知识的视觉问答,研究问题是:1)我们能通过显式有监督检索相关知识解决知识库-视觉问答问题吗?2)任务特定模型和预训练语言模型在视觉和外部知识的整合以及多跳推理方面的表现如何?3)预训练语言模型的隐式知识足够用于知识库-视觉问答吗?结果表明,将特定任务和预训练语言模型与显式的外部和视觉知识检索模型相结合可以取得良好效果。预训练语言模型在1跳推理方面更强,但在2跳推理方面不如我们精调的神经网络模型,尽管两种模型都可以获取两种信息的相关信息。此外,我们观察到预训练语言模型在与知识库相关的问题上优于神经网络模型,这证实了预训练语言模型中隐式知识的有效性,然而,它们并不能代替对外部知识的需求。