基于端到端神经网络架构的视觉问答显式推理
使用来自大规模知识库的信息来推理图片内容,解释推理过程并回答自然语言问题的视觉问答方法,比主流的长短时记忆方法更能回答复杂问题且表现明显更好,同时提供了数据集和协议来评估这类方法。
Nov, 2015
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文提出了一种新颖的方法,开发了一个高性能的VQA系统,能够通过集成的文本和视觉解释阐述其答案,并捕捉到深度神经网络推理的重要方面,从而比竞争方法具有更好的自动化和人类评估指标。
Sep, 2018
针对视觉问答中存在的通用知识推理难题,提出一种基于事实的视觉问答任务,并探索了利用实体图和图卷积网络联合推理来解决问题,相对于现有算法在准确率上有显著提高。
Nov, 2018
本文提出一个框架来单独评估视觉问答(VQA)中的推理方面,同时引入一种新颖的自上而下校准技术,以使模型即使具有不完美的感知也能回答推理问题,通过在具有挑战性的GQA数据集上进行深入的分离比较,可以了解到众所周知的VQA模型参与的见解以及任务。
Jun, 2020
本文提出了基于多个知识图谱的知识的视觉问答模型,通过串联的 GRUC 模块,对不同模态的图像信息进行并行推理,最终利用图神经网络获得全局最优解,在三个流行基准数据集上获得新的 state-of-the-art 表现结果。
Aug, 2020
提出了一种基于知识路线的视觉问题推理 VQA 模型评估数据集,通过控制程序来选择自然场景图和外部知识库中的三元组,强制进行多步推理,并平衡答案分布,以解决现有的 VQA 模型的浅层相关问题和注释程序不均衡的问题。
Dec, 2020
本文提出了一种新的推理框架来填补VQA任务中视觉特征和语义线索之间的语义鸿沟,实现了特征和谓词的有效联合学习,并在三个大规模数据集上实现了其他最先进方法无法比拟的准确度,同时还提供了一种可解释的方式来理解深度神经网络在预测答案时的决策。
Oct, 2021
我们提出了一种新的视觉问答架构,通过常识推理作为监督信号来减轻模型在缺乏视觉基础的情况下的性能不足,并通过相似性损失将模型的视觉注意力引导到场景的重要元素,从而提高模型的视觉感知能力和性能。
Sep, 2023
我们分析了基于知识的视觉问答,研究问题是:1)我们能通过显式有监督检索相关知识解决知识库-视觉问答问题吗?2)任务特定模型和预训练语言模型在视觉和外部知识的整合以及多跳推理方面的表现如何?3)预训练语言模型的隐式知识足够用于知识库-视觉问答吗?结果表明,将特定任务和预训练语言模型与显式的外部和视觉知识检索模型相结合可以取得良好效果。预训练语言模型在1跳推理方面更强,但在2跳推理方面不如我们精调的神经网络模型,尽管两种模型都可以获取两种信息的相关信息。此外,我们观察到预训练语言模型在与知识库相关的问题上优于神经网络模型,这证实了预训练语言模型中隐式知识的有效性,然而,它们并不能代替对外部知识的需求。
Apr, 2024