通过鲁棒性分析和基本问题链的上下文学习，提高视觉问答模型

Apr, 2023

通过鲁棒性分析和基本问题链的上下文学习，提高视觉问答模型

Improving Visual Question Answering Models through Robustness Analysis and In-Context Learning with a Chain of Basic Questions

PDF

Jia-Hong Huang, Modar Alfadly, Bernard Ghanem, Marcel Worring

TL;DR本文研究了深度神经网络在视觉问答（VQA）任务中的鲁棒性，提出了一种利用基本问题作为噪声来评估 VQA 模型鲁棒性的新方法，并提出了一种新的鲁棒性度量，R_score 和两个基础问题数据集来标准化 VQA 模型鲁棒性分析。实验结果表明，该方法能有效地分析 VQA 模型的鲁棒性，并且基于一系列基本问题的上下文学习可以提高模型的准确性。

Abstract

deep neural networks have been critical in the task of Visual Question Answering (VQA), with research traditionally focused on improving model accuracy. Recently, however, there has been a trend towards evaluating the r

visual question answering deep neural networks adversarial attacks robustness basic questions

发现论文，激发创造

视觉问答模型鲁棒性分析的新框架

提出基于语言部分的弹性框架，使用语义相关的基本问题作为可控噪声，评估 VQA 模型的鲁棒性，并提出新的鲁棒性度量标准 R_score 和两个大规模的基础问题数据集（BQDs），以规范 VQA 模型的鲁棒性分析。

Nov, 2017

基础问题对视觉问答模型的鲁棒性分析

本文提出了一种利用 LASSO 优化和 Basic Question Dataset (BQD) 以及新的 robustness measure Rscore 来分析 VQA models 鲁棒性的方法，同时希望 BQD 可以成为评估 VQA models 鲁棒性的基准。

Sep, 2017

强健的视觉问答：数据集，方法和未来挑战

视觉问答研究需要系统能够根据图像和自然语言问题提供准确的自然语言答案。然而，先前的通用 VQA 方法普遍存在记忆训练数据中的偏见而不是学习正确行为（如在预测答案之前进行图像建立联系）。因此，这些方法通常在分布内获得高性能但在分布外获得低性能。最近几年，已经提出了各种数据集和去偏见方法来评估和增强 VQA 的稳健性。本文提供了关于这一新兴领域的首个综述，重点讨论视觉问答中的这些问题。具体来说，首先概述了数据集的发展过程，从分布内和分布外的角度进行了分析。然后，研究了这些数据集使用的评估指标。第三，提出了一种类型学，介绍了现有去偏见方法的发展过程、相似之处与差异、稳健性比较和技术特征。此外，分析和讨论了 VQA 中代表性视觉与语言预训练模型的稳健性。最后，通过对现有文献的彻底审查和实验分析，从各个角度探讨了未来研究的关键领域。

Jul, 2023

VQABQ：基础问题驱动的视觉问答

本研究提出了一种针对图像和问题的视觉问答算法，包含两个主要模块：第一个模块将问题作为输入，输出主要给定问题的基础问题；第二个模块将问题和图像作为输入，输出问题的基于文本的答案。研究将基础问题生成问题视为 LASSO 优化问题，并提出一种标准来利用这些基础问题帮助回答主要问题。经过在具有挑战性的 VQA 数据集上的验证，本研究的方法实现了最先进的准确性，在开放式任务中达到了 60.34％的准确度。

Mar, 2017

鲁棒视觉问答的循环一致性

该研究提出了一个新的评估协议和与之相关的数据集（VQA-Rephrasings），展示了当前最先进的 VQA 模型对问题中的语言变化是非常脆弱的。作者们提出了一个模型不可知的框架，利用循环一致性来提高 VQA 模型的健壮性，通过训练模型不仅回答问题，而且还生成一个条件于答案的问题，从而预测生成的问题的答案与原问题（标准答案）相同。他们展示了该方法相对于最先进的 VQA 模型在语言变异方面具有显著的健壮性，并优于最先进的方法在标准的 VQA 和视觉问题生成任务中在具有挑战性的 VQA v2.0 数据集上的表现。

Feb, 2019

视觉问答（VQA）的视觉稳健性基准测试

可以在现实世界中部署的视觉问答（VQA）系统能够表现得和预期一样好吗？还是它们容易受到现实中的干扰效果（例如图像模糊）的影响，这在敏感应用（如医学 VQA）中可能会有不利影响？我们提出了第一个包含 213,000 个扩充图像的大规模基准测试，挑战多个 VQA 模型的视觉健壮性，并评估现实视觉扰动的强度。此外，我们设计了多个健壮性评估指标，可以聚合为一个统一指标，并适应各种用例。我们的实验揭示了模型大小、性能和对视觉扰动的健壮性之间的关系。我们的基准测试突显了在模型开发中需要平衡考虑模型性能和健壮性的必要性。

Jul, 2024

视觉问答算法分析

本文分析了现有的视觉问答（VQA）算法，并使用一个新数据集进行了评估，提出了新的评估方案来补偿过度展示的问题类型，并研究了不同算法的优缺点和注意力机制的作用。

Mar, 2017

从词汇扰动中学习，以实现一致的视觉问答

本文提出了一种使用模块化网络来改善视觉问答模型鲁棒性的方法，以及提出了一个包含大规模语言资源的低成本基准测试，我们的结果表明，对于 VQA 模型的训练和正则化，控制下的语言扰动是一种有用的但当前未充分利用的工具。

Nov, 2020

通过对抗正则化克服视觉问答中的语言先验

本文提出了一种新颖的正则化方法，通过引入一个仅装载问题的对手模型并在视觉贡献约束之后训练视觉问答模型，取得了在多个基础模型上明显提高的效果，并在标准 VQA 任务中表现出少得多的准确率下降，从而降低了语言偏差的影响。

Oct, 2018

探索图像问答模型和数据

本研究旨在通过新的模型和数据集解决基于图像的问答问题，使用神经网络和视觉语义嵌入预测有关图像的简单问题的答案，提出了一种将图片描述转化为问答格式的问题生成算法，为新的数据集提供了基线结果。

May, 2015