视觉和语言推理:探索补充知识的益处
本文提出了名为OK-VQA的基于知识的视觉问答基准,要求使用外部知识资源来回答问题,该任务是多样的、困难的和大型的,与以前的基于知识的VQA数据集相比具有更高的难度。
May, 2019
本研究探讨了学习和推理语言和视觉数据的挑战,并设计了一种新型跨模态相关模块,可用于学习各种输入模态的组件之间的相关表示,它比仅仅重新调整原始表示空间更具泛化性。我们的方法不仅模拟了文本实体和视觉实体之间的关联,还模拟了文本中实体关系和图像中对象关系之间的高阶关联。实验证明,我们的方法在两个不同的语言和视觉任务上展现出了竞争性能,并提高了VQA任务的训练效率。
May, 2020
本文提出了基于多个知识图谱的知识的视觉问答模型,通过串联的 GRUC 模块,对不同模态的图像信息进行并行推理,最终利用图神经网络获得全局最优解,在三个流行基准数据集上获得新的 state-of-the-art 表现结果。
Aug, 2020
提出了一种基于知识路线的视觉问题推理 VQA 模型评估数据集,通过控制程序来选择自然场景图和外部知识库中的三元组,强制进行多步推理,并平衡答案分布,以解决现有的 VQA 模型的浅层相关问题和注释程序不均衡的问题。
Dec, 2020
本文介绍了Visual Question Answering——Graph Neural Network模型,用于解决视觉理解中的概念层次推理问题,与现有模型相比,该模型将图像级别信息和概念知识进行了统一,并在VCR任务中取得了优于Trans-VL模型的最佳结果。此外,该模型还提供了跨视觉和文本知识领域的可解释性。
May, 2022
我们分析了基于知识的视觉问答,研究问题是:1)我们能通过显式有监督检索相关知识解决知识库-视觉问答问题吗?2)任务特定模型和预训练语言模型在视觉和外部知识的整合以及多跳推理方面的表现如何?3)预训练语言模型的隐式知识足够用于知识库-视觉问答吗?结果表明,将特定任务和预训练语言模型与显式的外部和视觉知识检索模型相结合可以取得良好效果。预训练语言模型在1跳推理方面更强,但在2跳推理方面不如我们精调的神经网络模型,尽管两种模型都可以获取两种信息的相关信息。此外,我们观察到预训练语言模型在与知识库相关的问题上优于神经网络模型,这证实了预训练语言模型中隐式知识的有效性,然而,它们并不能代替对外部知识的需求。
Apr, 2024
通过提供来自知识图谱中提取的相关外部知识,我们通过增强问题并实现可变数量的三元组,为知识增强的视觉问答模型带来了平均4.75%的准确匹配得分提升,并展示了其在推理能力和泛化能力方面的优势。
Jun, 2024
我们研究了基于知识的视觉问答问题,通过将复杂问题替换为多个简单问题,从图像中提取更相关的信息来增强对图像的理解,并在三个著名的视觉问答数据集中实现了高达2%的准确率提升。
Jun, 2024
本文解决了在实际应用中标准化评估视觉-语言模型(VLMs)以满足视觉问答(VQA)任务的挑战。作者提出了一种新颖的评估框架和数据集,并开发了GoEval评估指标,通过实验发现没有单一模型在所有领域表现最佳,这为VLM的选择提供了实用指导,具有重要的应用前景。
Sep, 2024