CARETS: 用于视觉问答的一致性和鲁棒性测试套件

ACLMar, 2022

CARETS: 用于视觉问答的一致性和鲁棒性测试套件

CARETS: A Consistency And Robustness Evaluative Test Suite for VQA

Carlos E. Jimenez, Olga Russakovsky, Karthik Narasimhan

TL;DR引入 CARETS 系统测试套件，通过一系列六种细粒度能力测试来衡量现代 VQA 模型的一致性和鲁棒性。我们在 CARETS 上评估了六个现代 VQA 系统，并确定了模型理解中的若干可操作性弱点，特别是在否定、或运算或超义不变性等概念方面。我们发布 CARETS 以作为可扩展的工具，用于评估多模态模型的鲁棒性。

Abstract

We introduce carets, a systematic test suite to measure consistency and robustness of modern vqa models through a series of six fine-grained capability tests. In contrast to existing VQA test sets, →

carets vqa models capability tests model comprehension multi-modal model robustness

发现论文，激发创造

玫瑰是红的，紫罗兰是蓝的…… 但 VQA 应该期望它们出现吗？

本文提出了 GQA-OOD 基准来评估视觉问答模型的推理能力，旨在解决现有基准存在的数据集偏差和评估方法的不足，并通过大规模实验验证了现有模型在处理罕见概念时的不足，提出了减少偏差的技术用于未来研究。

Jun, 2020

CARE：从临床文献中提取实验结果

从文献中提取细粒度实验结果可以为科学应用提供巨大效益，而本研究聚焦于生物医学领域，提出了一种新的信息抽取数据集 CARE （临床聚合导向结果抽取），以提取临床发现结果。在该数据集上对多种最先进的信息抽取系统进行了性能评估，结果表明本数据集的困难之处，尤其是关系抽取方面。

Nov, 2023

那好可爱啊！”：情感响应检测的 CARE 数据集

介绍了一个 230k 的社交媒体帖子数据集 CARE$_{db}$，通过 Common Affective Response（CARE）方法进行标注，旨在预测社交媒体帖子在用户中引起的情感反应，并使用该数据集训练基于 BERT 的模型预测情感反应以及情感检测。

Jan, 2022

走向因果 VQA：通过不变量和协变语义编辑揭示和减少虚假相关

本文讨论了一种新的方法，可以分析和衡量 Visual Question Answering 模型的稳健性，同时提出了使模型更具鲁棒性的方法，包括自动化的语义图像操作，和测试模型预测的一致性，生成合成数据来解决这些问题，实验结果表明，通过我们编辑的数据，模型的不一致预测显著减少，对于各种有挑战性的计数问题，我们对三种不同类型的最先进的 VQA 模型进行了分析，最终结果同样能够很好地应用于实际误差案例中，从而实现整体性能的提高。

Dec, 2019

超级 CLEVR：诊断视觉推理领域鲁棒性的虚拟基准测试

通过 Super-CLEVR 虚拟基准测试数据，我们研究了不同领域转移的因素，考察了四种现有的 VQA 方法，两种神经符号方法和两种非符号方法以及我们提出的方法 P-NSVQA，发现结合不确定性推理，将推理和感知分离形成一个强大的基于视觉与前因关系问题答案模型，可以更好地应对域迁移。

Dec, 2022

鲁棒视觉问答的循环一致性

该研究提出了一个新的评估协议和与之相关的数据集（VQA-Rephrasings），展示了当前最先进的 VQA 模型对问题中的语言变化是非常脆弱的。作者们提出了一个模型不可知的框架，利用循环一致性来提高 VQA 模型的健壮性，通过训练模型不仅回答问题，而且还生成一个条件于答案的问题，从而预测生成的问题的答案与原问题（标准答案）相同。他们展示了该方法相对于最先进的 VQA 模型在语言变异方面具有显著的健壮性，并优于最先进的方法在标准的 VQA 和视觉问题生成任务中在具有挑战性的 VQA v2.0 数据集上的表现。

Feb, 2019

通过导出问题生成改善 VQA 中的回答一致性

本研究提出了一种方法，通过引入一个名为 ConVQA 的数据集和度量标准，量化衡量视觉问答（VQA）模型的一致性，并建立了一种名为一致性教师模块（CTM）的数据增强模块，该模块可以自动增强源 QA 对的语义相关问题，从而优化 VQA 的一致性。在 ConVQA 数据集上的实验结果表明，我们的方法可以提高现有 VQA 模型的一致性表现。

Sep, 2019

对复杂答案检索的问题要素进行特征化

本文介绍了两种新的 CAR 方法，其中一种是将问题特征的效用考虑在排名模型中，在查询项得分组合过程中应用它们，另一种是通过改变排名模型的结构，在查询 — 文档术语匹配阶段有助于特征效用的学习。我们在 TREC CAR 数据集上使用这些技术，搭配领先的神经排名器，我们的方法在 2017 TREC CAR 基准测试中排名第一，比第二好的方法高出多达 26％的性能。

May, 2018

针对强鲁棒性视觉问答的反事实样本生成与训练

介绍了一个新的模型 - 不可知模型 Counterfactual Samples Synthesizing and Training（CSST）模型，可以消除 VQA 模型的语言偏见，并使模型变得更加视觉可解释和对语言变化更敏感，并在所有 OOD 基准测试上取得了创纪录的表现。

Oct, 2021

CARE：基于潜在概念的常识感性响应生成

本篇论文探讨将理性和情感融合到人工智能对话代理中的可行性，并提出了 CARE 模型，一种基于常识感知的情感响应生成模型，实验证明该模型比仅关注单一方面的现有模型在生成情感响应方面更加准确。

Dec, 2020