SwapMix: 检测和规范视觉问答中过度依赖视觉上下文

Apr, 2022

SwapMix: 检测和规范视觉问答中过度依赖视觉上下文

SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context in Visual Question Answering

Vipul Gupta, Zhuowan Li, Adam Kortylewski, Chenyu Zhang, Yingwei Li...

TL;DR通过一种名为 SwapMix 的简单有效的扰动技术，我们发现可代表性 VQA 模型的问题答案可以被改变超过 45％。此外，我们还发现模型的上下文依赖性高度取决于视觉表征的质量，并且 SwapMix 可以作为数据增强策略应用于训练中以调整上下文依赖性。

Abstract

While visual question answering (VQA) has progressed rapidly, previous works raise concerns about robustness of current vqa models. In thi

visual question answering robustness vqa models visual context perturbation technique

发现论文，激发创造

上下文感知的目的明确视觉问答

通过引入 Context-VQA 数据集，我们发现上下文会影响问题的类型，对于满足人们的需求，尤其是在可访问性设置中，VQA 模型应该具有上下文敏感性。

Jul, 2023

检测缺乏上下文的多模态情况并避免无根据的预测

通过收集上下文数据并训练一个上下文选择模块来解决 VLU 基准测试中普遍存在的问题，防止模型依赖无法支持的假设进行训练，同时开发了一个通用的 CARA 检测器来增强模型准确性，并且通过创建 CASE 集评估不充分的上下文检测器的性能，这些工作显著推进了在复杂现实场景中生成可信可靠的视觉语言模型的发展。

May, 2024

ContextMix: 一种用于工业视觉检测系统的上下文感知数据增强方法

深度神经网络在工业制造环境中，数据增强成为了缓解过拟合和提升网络性能的关键策略。我们提出了一种针对工业应用和基准数据集的方法 ContextMix，通过调整图片大小并将其整合到批次中的其他图片中，生成新的数据。该方法在性能上超过了现有的增强技术，并在公共基准数据集上的分类、检测和分割任务中展示了改进的结果。在真实的工业环境中，我们的方法表现出了显著的效果，尤其是在被动元件数据集上。

Jan, 2024

利用语言偏见学习内容和上下文的视觉问答

通过建立基于内容和上下文的 CCB 模型，可以减少语言偏差，同时提高 Visual Question Answering (VQA) 模型的学习能力。

Dec, 2020

基于 VQA 的视觉基础方法的负面案例分析

为解决当前 VQA 方法依赖于数据集偏见和统计相关性的问题，提出了利用视觉提示进行 VQA 模型性能优化的方法，但实现的改进并不是由于视觉提示的影响，而是正则化效应，为此提出了一种不需要外部数据注释的简单正则化方案。

Apr, 2020

SimVQA: 探索模拟环境进行视觉问答

采用合成数据生成技术，利用 3D 仿真平台生成了具备多样性的数据，针对现实世界 VQA 基准测试，量化了合成数据的影响并提出了 F-SWAP 方法，以提高现有真实图像数据集的 VQA 准确性。

Mar, 2022

从词汇扰动中学习，以实现一致的视觉问答

本文提出了一种使用模块化网络来改善视觉问答模型鲁棒性的方法，以及提出了一个包含大规模语言资源的低成本基准测试，我们的结果表明，对于 VQA 模型的训练和正则化，控制下的语言扰动是一种有用的但当前未充分利用的工具。

Nov, 2020

走向因果 VQA：通过不变量和协变语义编辑揭示和减少虚假相关

本文讨论了一种新的方法，可以分析和衡量 Visual Question Answering 模型的稳健性，同时提出了使模型更具鲁棒性的方法，包括自动化的语义图像操作，和测试模型预测的一致性，生成合成数据来解决这些问题，实验结果表明，通过我们编辑的数据，模型的不一致预测显著减少，对于各种有挑战性的计数问题，我们对三种不同类型的最先进的 VQA 模型进行了分析，最终结果同样能够很好地应用于实际误差案例中，从而实现整体性能的提高。

Dec, 2019

通过对抗正则化克服视觉问答中的语言先验

本文提出了一种新颖的正则化方法，通过引入一个仅装载问题的对手模型并在视觉贡献约束之后训练视觉问答模型，取得了在多个基础模型上明显提高的效果，并在标准 VQA 任务中表现出少得多的准确率下降，从而降低了语言偏差的影响。

Oct, 2018

如何建立适合上下文内的序列用于视觉问答

大型视觉语言模型通过上下文学习在自然语言处理中取得成功后，研究人员开发了具有上下文学习能力的大型视觉语言模型（LVLMs）。然而，在使用 LVLMs 实现上下文学习时，研究人员通常采用最简单的方式，如随机抽样来配置上下文序列，从而导致结果不理想。为了提高上下文学习性能，本研究以视觉问答（VQA）为案例研究，探索了多样化的上下文配置来寻找有效的配置，并通过改变上下文序列观察 LVLM 输出的变化，以改进我们对 LVLM 的理解。通过在三个 VQA 数据集上进行详尽的实验，我们揭示了应用的 LVLM 的三个重要内在性质，并证明了哪些策略可以始终改善上下文学习的 VQA 性能。

Dec, 2023