图形生成建模用于视觉问答中的外部分布泛化
本文提出通过建立基于场景信号和问题信息的图结构,应用深度神经网络分析问题的方法来提升视觉问答(VQA)的性能,相比于基于CNN/LSTM的VQA方法,本方法获得了显著的改善,其准确性从71.2%提高到74.4%,在不同的“平衡”场景中的准确性则提高了4.4%。
Sep, 2016
本文提出了一个新的 VQA 模型,其中通过引入不同的先验分布来防止模型仅仅依赖训练数据中的先验信息。该模型是 GVQA,与现有 VQA 模型相比,它具有更好的泛化性能和可解释性能。
Dec, 2017
GQA是一个旨在解决以往VQA数据集的缺陷问题的实际可视化推理和组成问题回答数据集,它使用场景图结构创建了2200万个不同的推理问题,伴随着功能程序共同表示它们的语义,其中包括新的可调平滑技术来缓解问题偏差。贯穿数据集的还有一套新的度量标准,可以评估基本的质量,例如一致性、基础和可信性。
Feb, 2019
本文提出MUTANT的训练方式,该方式不需要关于训练和测试答案分布特点的先验知识,并且在VQA-CP上实现了10.57%的准确度提升,为问答类问题中基于语义输入变异的OOD泛化开辟了新的道路。
Sep, 2020
提出了一种基于视觉任务的方法,将 VQA 问题分解为技能和概念,并通过对对应的概念表示和技能编码的解耦实现模型内部的有效组合,从而提高了处理新组合任务的能力。
Jul, 2021
提出了QD-GFN方法,利用三个图注意力网络来建立图像中的语义、空间和隐含视觉关系,并引入问题信息指导三个图的聚合过程,采用目标过滤机制消除图像中与问题不相关的对象,实验结果表明QD-GFN优于现有最先进的VQA模型,新的图聚合方法和目标过滤机制对模型的性能提升起到了重要作用。
Apr, 2022
研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题,而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估,证明生成模型在大多数情况下对数据分布变化不太敏感,并在测试基准中表现更好。另外,我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后,本文重新审视了自动 VQA 评估度量的假设,并从经验上证明它们的严格性会反复惩罚模型的正确响应。
May, 2022
本研究探讨了一种新的方法来创建先进的视觉问答(VQA)模型,可以在时间泛化上产生成功的结果。通过利用来自VQAv2和MS-COCO数据集的图像和标题,通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的VQA模型的组合。该研究的目的是调查几个成功的VQA模型的稳健性,评估它们对未来数据分布的性能。分析模型架构,识别改进时间分布偏移下的泛化能力的常见风格选择。这项研究突出了创建大规模未来偏移数据集的重要性,这些数据可以增强VQA模型的稳健性,使其未来的同行能够更好地适应时间分布的变化。
Jul, 2023
视觉问题回答(VQA)模型旨在展示视觉和文本推理能力,然而,由于缺乏综合的基准数据集,它们在实际应用中受到了限制。我们提出了VQA-GEN,这是第一个通过引入转换流程生成的多模态基准数据集,用于评估VQA在视觉和文本领域的转换能力。实验证明VQA-GEN数据集揭示了现有方法对于多模态转换的漏洞,验证了全面的多模态转换对于稳健的VQA泛化是至关重要的。在VQA-GEN上训练的模型展现了跨领域和领域内性能的提升,验证了VQA-GEN的价值。此外,我们分析了转换技术对模型泛化性能的重要性。
Nov, 2023