本文提出了基于多个知识图谱的知识的视觉问答模型,通过串联的 GRUC 模块,对不同模态的图像信息进行并行推理,最终利用图神经网络获得全局最优解,在三个流行基准数据集上获得新的 state-of-the-art 表现结果。
Aug, 2020
本文介绍了一种同时减少 VQA 系统中视觉和语言偏差的方法,并推出了一种解释策略,最终在 VQA-CP v2 数据集上取得了比现有方法更好的结果。
May, 2023
本文介绍了 Visual Question Answering——Graph Neural Network 模型,用于解决视觉理解中的概念层次推理问题,与现有模型相比,该模型将图像级别信息和概念知识进行了统一,并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外,该模型还提供了跨视觉和文本知识领域的可解释性。
May, 2022
本文提出了一种多模态异构图神经网络来解决基于事实的视觉问答问题,该模型通过逐层的图卷积网络对问题相关证据进行迭代式推理,并在多种数据集上获得了最新的最佳成绩。
Jun, 2020
我们提出了一种新的视觉问答架构,通过常识推理作为监督信号来减轻模型在缺乏视觉基础的情况下的性能不足,并通过相似性损失将模型的视觉注意力引导到场景的重要元素,从而提高模型的视觉感知能力和性能。
Sep, 2023
通过比较视觉问答模型的输出和注意力图与人类的相似之处,研究发现虽然 VQA 模型在结构和识别水平上与人类相似,但在认知推理方面仍然存在挑战。人类思维过程的分析有助于指导未来的研究,并在建模特征和架构中引入更多的认知能力。
Oct, 2023
利用链式思维和视觉问答技术,通过评估文本嵌入方法和视觉嵌入方法的有效性,研究如何提高深度学习模型在解决多项选择问题方面的准确性,实验结果显示这些方法在增强推理和问答能力方面具有潜力。
Dec, 2023
本研究探讨了一种新的方法来创建先进的视觉问答(VQA)模型,可以在时间泛化上产生成功的结果。通过利用来自 VQAv2 和 MS-COCO 数据集的图像和标题,通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的 VQA 模型的组合。该研究的目的是调查几个成功的 VQA 模型的稳健性,评估它们对未来数据分布的性能。分析模型架构,识别改进时间分布偏移下的泛化能力的常见风格选择。这项研究突出了创建大规模未来偏移数据集的重要性,这些数据可以增强 VQA 模型的稳健性,使其未来的同行能够更好地适应时间分布的变化。
Jul, 2023
本文提出了一个新的 VQA 模型,其中通过引入不同的先验分布来防止模型仅仅依赖训练数据中的先验信息。该模型是 GVQA,与现有 VQA 模型相比,它具有更好的泛化性能和可解释性能。
Dec, 2017
本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题,并通过在 Visual7W Telling 和 VQA Real Multiple Choice 任务上的实验表明该模型的简单版本同样具有竞争力,同时,作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知,其表现相对于充分利用数据集偏见的系统并没有显著提升。
Jun, 2016