开箱即用:使用图卷积神经网络进行事实视觉问答推理
本文提出了一种多模态异构图神经网络来解决基于事实的视觉问答问题,该模型通过逐层的图卷积网络对问题相关证据进行迭代式推理,并在多种数据集上获得了最新的最佳成绩。
Jun, 2020
介绍了一种需要外部信息支持、对图像进行深层次推理的视觉问答数据集 FVQA,并在该数据集上评估了多种基线模型,提出了一种新的模型能够基于支持事实对图像进行推理。
Jun, 2016
本文提出了基于多个知识图谱的知识的视觉问答模型,通过串联的 GRUC 模块,对不同模态的图像信息进行并行推理,最终利用图神经网络获得全局最优解,在三个流行基准数据集上获得新的 state-of-the-art 表现结果。
Aug, 2020
提出了 QD-GFN 方法,利用三个图注意力网络来建立图像中的语义、空间和隐含视觉关系,并引入问题信息指导三个图的聚合过程,采用目标过滤机制消除图像中与问题不相关的对象,实验结果表明 QD-GFN 优于现有最先进的 VQA 模型,新的图聚合方法和目标过滤机制对模型的性能提升起到了重要作用。
Apr, 2022
本文介绍了 Visual Question Answering——Graph Neural Network 模型,用于解决视觉理解中的概念层次推理问题,与现有模型相比,该模型将图像级别信息和概念知识进行了统一,并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外,该模型还提供了跨视觉和文本知识领域的可解释性。
May, 2022
本论文提出了一种基于图形的视觉问答新方法,该方法结合了用于学习问题特定图形表示的图形学习器模块和最近的图形卷积概念,旨在学习能够捕捉问题特定交互的图像表示。该方法在 VQA v2 数据集上获得了 66.18%的准确率,证明了其可解释性。
Jun, 2018
本文介绍了一种基于知识图谱的问答系统,采取了一种新型的深度学习架构和端到端变分学习算法,可以同时处理问题中的噪声和多跳推理,在最新的基准数据集中取得了最优表现。
Sep, 2017
本研究提出了 QAGCN—— 一种简单而有效的使用注意力图卷积网络的多步推理问题答案推导模型,避免了传统复杂推理机制的不稳定性和低至。经过广泛的实验,我们证明了 QAGCN 在几个具有挑战性的数据集上与当前最先进的基于深度强化学习的方法相比非常有竞争力,提高了效率并保持了高的解释性。
Jun, 2022
本文提出了一种新的推理框架来填补 VQA 任务中视觉特征和语义线索之间的语义鸿沟,实现了特征和谓词的有效联合学习,并在三个大规模数据集上实现了其他最先进方法无法比拟的准确度,同时还提供了一种可解释的方式来理解深度神经网络在预测答案时的决策。
Oct, 2021