MUTANT:一种用于视觉问答中超出分布泛化的训练范式
本文研究了基于深度学习模型的视觉问答模型,发现现有模型的准确率在60-70%之间,且本文提出系统分析这些模型行为的方法,发现这些模型存在缺点,包括不够全面、容易得出错误答案和不易更正的问题。
Jun, 2016
本文提出了一个新的 VQA 模型,其中通过引入不同的先验分布来防止模型仅仅依赖训练数据中的先验信息。该模型是 GVQA,与现有 VQA 模型相比,它具有更好的泛化性能和可解释性能。
Dec, 2017
本篇文章提出了iVQA问题,利用变分模型来生成多样化、语法正确、与答案相关性较强的问题,并将其作为一种新型的视觉-语言理解基准测试。同时,还提出了使用强化学习框架来诊断现有VQA模型,揭示其内在缺陷的方法。
Mar, 2018
本文提出了一种新颖的正则化方法,通过引入一个仅装载问题的对手模型并在视觉贡献约束之后训练视觉问答模型,取得了在多个基础模型上明显提高的效果,并在标准VQA任务中表现出少得多的准确率下降,从而降低了语言偏差的影响。
Oct, 2018
本研究提出一种针对视觉问答(VQA)模型的计数样本合成(CSS)训练方案,该方案通过掩盖图像中的关键对象或问题中的关键词并赋予不同的答案来生成大量反事实训练样本,从而提高模型的视觉可解释性和问题敏感性,进而提高模型性能。在模型LMH的基础上,我们在VQA-CP v2上取得了58.95%的最高记录,增益为6.5%。
Mar, 2020
本文提出一种基于图生成建模的VQA模型,通过使用属性-对象对作为节点,逐步生成关系矩阵和节点表示来解决VQA中的OOD泛化问题,并在两个标准VQA OOD基准测试中实现了最先进的性能。
Jul, 2021
研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题,而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估,证明生成模型在大多数情况下对数据分布变化不太敏感,并在测试基准中表现更好。另外,我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后,本文重新审视了自动 VQA 评估度量的假设,并从经验上证明它们的严格性会反复惩罚模型的正确响应。
May, 2022
本文通过一系列实验,探究语言模态对视觉问答模型在超出其学习领域的数据上的影响,提出简单的方法来减少模型对语言先验的依赖并在out-of-distribution测试集上提高性能。
May, 2023
本研究探讨了一种新的方法来创建先进的视觉问答(VQA)模型,可以在时间泛化上产生成功的结果。通过利用来自VQAv2和MS-COCO数据集的图像和标题,通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的VQA模型的组合。该研究的目的是调查几个成功的VQA模型的稳健性,评估它们对未来数据分布的性能。分析模型架构,识别改进时间分布偏移下的泛化能力的常见风格选择。这项研究突出了创建大规模未来偏移数据集的重要性,这些数据可以增强VQA模型的稳健性,使其未来的同行能够更好地适应时间分布的变化。
Jul, 2023
视觉问题回答(VQA)模型旨在展示视觉和文本推理能力,然而,由于缺乏综合的基准数据集,它们在实际应用中受到了限制。我们提出了VQA-GEN,这是第一个通过引入转换流程生成的多模态基准数据集,用于评估VQA在视觉和文本领域的转换能力。实验证明VQA-GEN数据集揭示了现有方法对于多模态转换的漏洞,验证了全面的多模态转换对于稳健的VQA泛化是至关重要的。在VQA-GEN上训练的模型展现了跨领域和领域内性能的提升,验证了VQA-GEN的价值。此外,我们分析了转换技术对模型泛化性能的重要性。
Nov, 2023