VQA系统鲁棒吗?通过有针对性的干预测试对增广数据的稳健性
本文提出了一种利用LASSO优化和Basic Question Dataset(BQD)以及新的robustness measure Rscore来分析VQA models 鲁棒性的方法,同时希望BQD可以成为评估VQA models鲁棒性的基准。
Sep, 2017
提出基于语言部分的弹性框架,使用语义相关的基本问题作为可控噪声,评估 VQA 模型的鲁棒性,并提出新的鲁棒性度量标准 R_score 和两个大规模的基础问题数据集(BQDs),以规范 VQA 模型的鲁棒性分析。
Nov, 2017
该研究提出了一个新的评估协议和与之相关的数据集(VQA-Rephrasings),展示了当前最先进的 VQA 模型对问题中的语言变化是非常脆弱的。作者们提出了一个模型不可知的框架,利用循环一致性来提高 VQA 模型的健壮性,通过训练模型不仅回答问题,而且还生成一个条件于答案的问题,从而预测生成的问题的答案与原问题(标准答案)相同。他们展示了该方法相对于最先进的 VQA 模型在语言变异方面具有显著的健壮性,并优于最先进的方法在标准的 VQA 和视觉问题生成任务中在具有挑战性的 VQA v2.0 数据集上的表现。
Feb, 2019
本文讨论了一种新的方法,可以分析和衡量 Visual Question Answering 模型的稳健性,同时提出了使模型更具鲁棒性的方法,包括自动化的语义图像操作,和测试模型预测的一致性,生成合成数据来解决这些问题,实验结果表明,通过我们编辑的数据,模型的不一致预测显著减少,对于各种有挑战性的计数问题,我们对三种不同类型的最先进的 VQA 模型进行了分析,最终结果同样能够很好地应用于实际误差案例中,从而实现整体性能的提高。
Dec, 2019
本文提出了GQA-OOD基准来评估视觉问答模型的推理能力,旨在解决现有基准存在的数据集偏差和评估方法的不足,并通过大规模实验验证了现有模型在处理罕见概念时的不足,提出了减少偏差的技术用于未来研究。
Jun, 2020
提出了一种基于知识蒸馏的数据增强方法 KDDAug,通过放宽合理图像-问题匹配的要求,并设计了一个知识蒸馏(KD)策略生成所有生成的图像-问题对的伪答案,从而增强图像的数据集,以提高视觉问答(VQA)模型的泛化性能。
Jul, 2022
提出了一个名为MMBS的对比学习方法,通过去除与偏见相关的信息构建正样本进行训练,从而构建更加鲁棒的视觉问答模型并增加其对理性推理的贡献,同时在VQA-CP v2 OOD数据集上取得了竞争性的表现以及在VQA v2 ID数据集上保持了鲁棒的性能。
Oct, 2022
本文研究了深度神经网络在视觉问答(VQA)任务中的鲁棒性,提出了一种利用基本问题作为噪声来评估VQA模型鲁棒性的新方法,并提出了一种新的鲁棒性度量,R_score和两个基础问题数据集来标准化VQA模型鲁棒性分析。实验结果表明,该方法能有效地分析VQA模型的鲁棒性,并且基于一系列基本问题的上下文学习可以提高模型的准确性。
Apr, 2023
视觉问答研究需要系统能够根据图像和自然语言问题提供准确的自然语言答案。然而,先前的通用VQA方法普遍存在记忆训练数据中的偏见而不是学习正确行为(如在预测答案之前进行图像建立联系)。因此,这些方法通常在分布内获得高性能但在分布外获得低性能。最近几年,已经提出了各种数据集和去偏见方法来评估和增强VQA的稳健性。本文提供了关于这一新兴领域的首个综述,重点讨论视觉问答中的这些问题。具体来说,首先概述了数据集的发展过程,从分布内和分布外的角度进行了分析。然后,研究了这些数据集使用的评估指标。第三,提出了一种类型学,介绍了现有去偏见方法的发展过程、相似之处与差异、稳健性比较和技术特征。此外,分析和讨论了VQA中代表性视觉与语言预训练模型的稳健性。最后,通过对现有文献的彻底审查和实验分析,从各个角度探讨了未来研究的关键领域。
Jul, 2023
可以在现实世界中部署的视觉问答(VQA)系统能够表现得和预期一样好吗?还是它们容易受到现实中的干扰效果(例如图像模糊)的影响,这在敏感应用(如医学VQA)中可能会有不利影响?我们提出了第一个包含213,000个扩充图像的大规模基准测试,挑战多个VQA模型的视觉健壮性,并评估现实视觉扰动的强度。此外,我们设计了多个健壮性评估指标,可以聚合为一个统一指标,并适应各种用例。我们的实验揭示了模型大小、性能和对视觉扰动的健壮性之间的关系。我们的基准测试突显了在模型开发中需要平衡考虑模型性能和健壮性的必要性。
Jul, 2024