针对 VQA 的问题条件反事实图像生成
本文通过利用结构化知识库进行确定性、最优和可控的词级替换,以探究 VQA 模型行为的解释和鲁棒性,并从反事实的回答中提取局部和全局解释,发现可能的偏见和影响模型的性能的预期和意外模式,揭示了模型决策过程中的潜在偏见。
Mar, 2023
本研究提出一种针对视觉问答(VQA)模型的计数样本合成(CSS)训练方案,该方案通过掩盖图像中的关键对象或问题中的关键词并赋予不同的答案来生成大量反事实训练样本,从而提高模型的视觉可解释性和问题敏感性,进而提高模型性能。在模型 LMH 的基础上,我们在 VQA-CP v2 上取得了 58.95%的最高记录,增益为 6.5%。
Mar, 2020
该研究引入了一个新的视觉问答任务,即识别对原问题产生不同回答的图像,并通过这一任务来评估现有的 VQA 模型。尽管作者的模型在这一任务上表现出色,但研究结果表明,现有的最先进 VQA 模型所学习的多模态表示对于这一任务的表现并没有显著贡献,这表明在 VQA 基准测试上表现良好并不意味着具备更广泛的视觉语义推理能力。
Jun, 2018
我们提出了一种自我监督的反事实度量学习方法来应对 VQA 中的语言偏见问题,该方法可以自适应地选择与问题相关的视觉特征来回答问题,从而减少与问题不相关的视觉特征对推断答案的负面影响,实验证明了我们方法对 VQA-CP 数据集具有提升效果。
Apr, 2023
介绍了一个新的模型 - 不可知模型 Counterfactual Samples Synthesizing and Training(CSST)模型,可以消除 VQA 模型的语言偏见,并使模型变得更加视觉可解释和对语言变化更敏感,并在所有 OOD 基准测试上取得了创纪录的表现。
Oct, 2021
本篇文章提出了 iVQA 问题,利用变分模型来生成多样化、语法正确、与答案相关性较强的问题,并将其作为一种新型的视觉 - 语言理解基准测试。同时,还提出了使用强化学习框架来诊断现有 VQA 模型,揭示其内在缺陷的方法。
Mar, 2018
本文提出了逆向视觉问答(iVQA)问题,并探讨其作为视觉语言理解基准的适用性。我们提出了一种 iVQA 模型,可以逐渐调整其注意力焦点,以便更好地理解给定的图像。实验结果表明,我们的模型可以生成多样性、语法正确且内容相关的问题,与给定的答案相匹配。
Oct, 2017
本研究旨在探索如何创建关于领域知识、语义多样性和可回答性等方面的反事实数据来改善深度学习模型的鲁棒性,其中使用的技术包括数据增强,以及 “Retrieve-Generate-Filter” 模型。实验表明,使用该技术能够有效提高模型对于本地扰动的鲁棒性和在阅读理解和开放领域问答中的性能。
Oct, 2021
本文提出了一种生成反事实视觉解释的方法,用于多个图像分类数据集,结果表明该方法具有可解释性和区分性;同时,机器教学实验表明在鸟类分类任务中,提供反事实解释的人更容易区分鸟类物种。
Apr, 2019
本文提出了一种新的因果推断框架来缓解视觉问答模型中的语言偏见,可以从整体上减少语言上对回答结果的直接影响,实验结果表明,该框架可以适用于各种 VQA 问答模型,在均衡的 VQA v2 数据集上表现稳定, 同时在语言相关的 VQA-CP 数据集上达到有竞争力的表现。
Jun, 2020