CARETS: 用于视觉问答的一致性和鲁棒性测试套件
本文提出了 GQA-OOD 基准来评估视觉问答模型的推理能力,旨在解决现有基准存在的数据集偏差和评估方法的不足,并通过大规模实验验证了现有模型在处理罕见概念时的不足,提出了减少偏差的技术用于未来研究。
Jun, 2020
从文献中提取细粒度实验结果可以为科学应用提供巨大效益,而本研究聚焦于生物医学领域,提出了一种新的信息抽取数据集 CARE (临床聚合导向结果抽取),以提取临床发现结果。在该数据集上对多种最先进的信息抽取系统进行了性能评估,结果表明本数据集的困难之处,尤其是关系抽取方面。
Nov, 2023
介绍了一个 230k 的社交媒体帖子数据集 CARE$_{db}$,通过 Common Affective Response(CARE)方法进行标注,旨在预测社交媒体帖子在用户中引起的情感反应,并使用该数据集训练基于 BERT 的模型预测情感反应以及情感检测。
Jan, 2022
本文讨论了一种新的方法,可以分析和衡量 Visual Question Answering 模型的稳健性,同时提出了使模型更具鲁棒性的方法,包括自动化的语义图像操作,和测试模型预测的一致性,生成合成数据来解决这些问题,实验结果表明,通过我们编辑的数据,模型的不一致预测显著减少,对于各种有挑战性的计数问题,我们对三种不同类型的最先进的 VQA 模型进行了分析,最终结果同样能够很好地应用于实际误差案例中,从而实现整体性能的提高。
Dec, 2019
通过 Super-CLEVR 虚拟基准测试数据,我们研究了不同领域转移的因素,考察了四种现有的 VQA 方法,两种神经符号方法和两种非符号方法以及我们提出的方法 P-NSVQA,发现结合不确定性推理,将推理和感知分离形成一个强大的基于视觉与前因关系问题答案模型,可以更好地应对域迁移。
Dec, 2022
该研究提出了一个新的评估协议和与之相关的数据集(VQA-Rephrasings),展示了当前最先进的 VQA 模型对问题中的语言变化是非常脆弱的。作者们提出了一个模型不可知的框架,利用循环一致性来提高 VQA 模型的健壮性,通过训练模型不仅回答问题,而且还生成一个条件于答案的问题,从而预测生成的问题的答案与原问题(标准答案)相同。他们展示了该方法相对于最先进的 VQA 模型在语言变异方面具有显著的健壮性,并优于最先进的方法在标准的 VQA 和视觉问题生成任务中在具有挑战性的 VQA v2.0 数据集上的表现。
Feb, 2019
本研究提出了一种方法,通过引入一个名为 ConVQA 的数据集和度量标准,量化衡量视觉问答(VQA)模型的一致性,并建立了一种名为一致性教师模块(CTM)的数据增强模块,该模块可以自动增强源 QA 对的语义相关问题,从而优化 VQA 的一致性。在 ConVQA 数据集上的实验结果表明,我们的方法可以提高现有 VQA 模型的一致性表现。
Sep, 2019
本文介绍了两种新的 CAR 方法,其中一种是将问题特征的效用考虑在排名模型中,在查询项得分组合过程中应用它们,另一种是通过改变排名模型的结构,在查询 — 文档术语匹配阶段有助于特征效用的学习。我们在 TREC CAR 数据集上使用这些技术,搭配领先的神经排名器,我们的方法在 2017 TREC CAR 基准测试中排名第一,比第二好的方法高出多达 26%的性能。
May, 2018
介绍了一个新的模型 - 不可知模型 Counterfactual Samples Synthesizing and Training(CSST)模型,可以消除 VQA 模型的语言偏见,并使模型变得更加视觉可解释和对语言变化更敏感,并在所有 OOD 基准测试上取得了创纪录的表现。
Oct, 2021
本篇论文探讨将理性和情感融合到人工智能对话代理中的可行性,并提出了 CARE 模型,一种基于常识感知的情感响应生成模型,实验证明该模型比仅关注单一方面的现有模型在生成情感响应方面更加准确。
Dec, 2020