从词汇扰动中学习，以实现一致的视觉问答

Nov, 2020

从词汇扰动中学习，以实现一致的视觉问答

Learning from Lexical Perturbations for Consistent Visual Question Answering

Spencer Whitehead, Hui Wu, Yi Ren Fung, Heng Ji, Rogerio Feris...

TL;DR本文提出了一种使用模块化网络来改善视觉问答模型鲁棒性的方法，以及提出了一个包含大规模语言资源的低成本基准测试，我们的结果表明，对于 VQA 模型的训练和正则化，控制下的语言扰动是一种有用的但当前未充分利用的工具。

Abstract

Existing visual question answering (VQA) models are often fragile and sensitive to input variations. In this paper, we propose a novel approach to address this issue based on modular networks, which creates two q

visual question answering modular networks linguistic perturbations regularization benchmark

发现论文，激发创造

通过对抗正则化克服视觉问答中的语言先验

本文提出了一种新颖的正则化方法，通过引入一个仅装载问题的对手模型并在视觉贡献约束之后训练视觉问答模型，取得了在多个基础模型上明显提高的效果，并在标准 VQA 任务中表现出少得多的准确率下降，从而降低了语言偏差的影响。

Oct, 2018

基于知识的反事实查询在视觉问答中的应用

本文通过利用结构化知识库进行确定性、最优和可控的词级替换，以探究 VQA 模型行为的解释和鲁棒性，并从反事实的回答中提取局部和全局解释，发现可能的偏见和影响模型的性能的预期和意外模式，揭示了模型决策过程中的潜在偏见。

Mar, 2023

鲁棒视觉问答的循环一致性

该研究提出了一个新的评估协议和与之相关的数据集（VQA-Rephrasings），展示了当前最先进的 VQA 模型对问题中的语言变化是非常脆弱的。作者们提出了一个模型不可知的框架，利用循环一致性来提高 VQA 模型的健壮性，通过训练模型不仅回答问题，而且还生成一个条件于答案的问题，从而预测生成的问题的答案与原问题（标准答案）相同。他们展示了该方法相对于最先进的 VQA 模型在语言变异方面具有显著的健壮性，并优于最先进的方法在标准的 VQA 和视觉问题生成任务中在具有挑战性的 VQA v2.0 数据集上的表现。

Feb, 2019

在视觉问答中量化和缓解语言先验问题

本文针对视觉问答技术所面临的语言先验问题，设计了一个度量指标并提出了一种得分正则化模块，该模块采用成对学习方法，可以缓解语言先验问题，并提高骨干模型的性能。

May, 2019

视觉问答模型鲁棒性分析的新框架

提出基于语言部分的弹性框架，使用语义相关的基本问题作为可控噪声，评估 VQA 模型的鲁棒性，并提出新的鲁棒性度量标准 R_score 和两个大规模的基础问题数据集（BQDs），以规范 VQA 模型的鲁棒性分析。

Nov, 2017

走向因果 VQA：通过不变量和协变语义编辑揭示和减少虚假相关

本文讨论了一种新的方法，可以分析和衡量 Visual Question Answering 模型的稳健性，同时提出了使模型更具鲁棒性的方法，包括自动化的语义图像操作，和测试模型预测的一致性，生成合成数据来解决这些问题，实验结果表明，通过我们编辑的数据，模型的不一致预测显著减少，对于各种有挑战性的计数问题，我们对三种不同类型的最先进的 VQA 模型进行了分析，最终结果同样能够很好地应用于实际误差案例中，从而实现整体性能的提高。

Dec, 2019

VQAttack：基于预训练模型的可传递视觉问答对抗攻击

使用预训练的多模态源模型生成对抗性图像 - 文本对来攻击目标 VQA 模型，并提出了一种新的 VQAttack 模型，通过设计的模块迭代生成图像和文本扰动，实验证明在转移攻击环境下，与现有方法相比，该模型具有有效性。

Feb, 2024

通过梯度引导的模型扰动增强医学视觉问答任务的泛化能力

通过利用预训练的视觉语言模型，并结合数据增强、正则化方法以及基于梯度引导的参数扰动，该研究提出了一种改善医学可视化问答任务的模型泛化性能的方法，并在两个数据集上获得了有竞争力的结果。

Mar, 2024

通过鲁棒性分析和基本问题链的上下文学习，提高视觉问答模型

本文研究了深度神经网络在视觉问答（VQA）任务中的鲁棒性，提出了一种利用基本问题作为噪声来评估 VQA 模型鲁棒性的新方法，并提出了一种新的鲁棒性度量，R_score 和两个基础问题数据集来标准化 VQA 模型鲁棒性分析。实验结果表明，该方法能有效地分析 VQA 模型的鲁棒性，并且基于一系列基本问题的上下文学习可以提高模型的准确性。

Apr, 2023

生成式视觉问答

本研究探讨了一种新的方法来创建先进的视觉问答（VQA）模型，可以在时间泛化上产生成功的结果。通过利用来自 VQAv2 和 MS-COCO 数据集的图像和标题，通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的 VQA 模型的组合。该研究的目的是调查几个成功的 VQA 模型的稳健性，评估它们对未来数据分布的性能。分析模型架构，识别改进时间分布偏移下的泛化能力的常见风格选择。这项研究突出了创建大规模未来偏移数据集的重要性，这些数据可以增强 VQA 模型的稳健性，使其未来的同行能够更好地适应时间分布的变化。

Jul, 2023