Feb, 2024

基于大型语言模型的知识导向视觉问答中的模态感知集成

TL;DR基于知识的视觉问答(KVQA)对于利用外部知识,如知识图谱(KGs)来回答视觉问题进行了广泛研究。本文提出了一种新颖的 LLMs 模态感知集成方法(MAIL),用于 KVQA,它巧妙地利用多模态知识进行图像理解和知识推理,并在两个基准数据集上的实验证明了 MAIL 的卓越性能。