确信的不确定性: 一种用于多模态认知和随机意识的基准和度量

Jul, 2024

确信的不确定性: 一种用于多模态认知和随机意识的基准和度量

Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness

Khyathi Raghavi Chandu, Linjie Li, Anas Awadalla, Ximing Lu, Jae Sung Park...

TL;DR在本文中，我们针对视觉-语言人工智能系统提出了关于不确定性的分类法，区分了由于信息缺乏而产生的认识不确定性和由于固有不可预测性而产生的因果不确定性，并进一步探讨了更加精细的分类。基于这个分类法，我们构建了一个对比性数据集CertainlyUncertain，其中包含178K个视觉问答样本，通过对图像进行修复使原本可以回答的问题变为不可回答，并利用图像标题来引发大型语言模型回答可回答和不可回答的问题。此外，我们引入了一项新的指标——置信加权准确率，它与准确率和校准误差都具有很好的相关性，以解决现有指标的不足之处。

Abstract

The ability to acknowledge the inevitable uncertainty in their knowledge and reasoning is a prerequisite for ai systems to be truly truthful and reliable. In this paper, we present a →

发现论文，激发创造

基于不确定输入的实景问答的多世界方法

本文提出了一种自动回答关于图像的问题的方法，该方法结合了自然语言处理和计算机视觉的最新进展，采用多世界方法将离散推理与不确定预测结合起来，并在贝叶斯框架下表示对感知世界的不确定性。该方法能够处理有关现实场景的高难度的人类问题，并以计数、物体类别、实例和它们的列表等答案的范围进行回复。该系统直接从问题-答案对中进行训练。我们建立了该任务的第一个基准，可视为现代视觉图灵测试的一种尝试。

Oct, 2014

基于不确定性的视觉问答：估计图像与知识库间的语义不一致性

本研究提出了一种基于语义不一致度量的新型外部知识同化方法，应用到知识型视觉问答中，旨在减少添加无关信息对问答的干扰并融合含蓄和显式知识，评估结果表明该方法具有最先进性能。

Jul, 2022

多模态不确定性感知视觉-语言预训练模型

本文通过概率分布编码器（PDE）将所有模态的表示作为概率分布映射，对不确定性建模，提出了基于概率分布的预训练任务并在视觉和语言联合任务上实现了最先进的结果。

Oct, 2022

超级CLEVR：诊断视觉推理领域鲁棒性的虚拟基准测试

通过 Super-CLEVR 虚拟基准测试数据，我们研究了不同领域转移的因素，考察了四种现有的 VQA 方法，两种神经符号方法和两种非符号方法以及我们提出的方法 P-NSVQA，发现结合不确定性推理，将推理和感知分离形成一个强大的基于视觉与前因关系问题答案模型，可以更好地应对域迁移。

Dec, 2022

视觉-语言模型的不确定性感知评估

提出了一种利用置信度量化的方式评估视觉-语言模型，研究发现模型的不确定性与准确性存在相关性。

Feb, 2024

一致性与不确定性：从黑盒视觉语言模型中鉴别不可靠的响应，以进行选择性视觉问答

在黑盒子中研究选择性预测，使用邻域一致性原则识别可靠性低的图像 - 语言模型在问答任务中的响应。

Apr, 2024

过度自信是关键：大型语言和视觉-语言模型中的口头不确定性评估

该论文评估了语言和视觉-语言模型的可靠性，并提出了新的日本不确定场景数据集以及测量校准误差的方法。结果表明，语言和视觉-语言模型都存在较高的校准误差，并且大部分时间都表现出过度自信，说明其对不确定性估计的能力较弱。此外，研究还发展了回归任务的提示方法，并证明视觉-语言模型在生成均值/标准差和95%置信区间时存在校准不良。

May, 2024

揭开大型视觉语言模型的一致性之纱

通过多模态基准测试工具ConBench，本研究首次揭示了大型视觉和语言模型在解决方案空间不同的提示下的答案一致性问题，并通过基于触发器的诊断优化方法，间接提高了模型的性能，以增强其描述能力。

May, 2024

明辨视界，难答问题：基于多模态鲁棒性的机器学习语言模型评估

通过提出一个多模态鲁棒性评估基准以及一个训练集，我们发现多模态大型语言模型在理解视觉内容方面存在脆弱性，而这种脆弱性可以通过在新的训练集上进行微调来显著增强。

Jun, 2024

DARE：具备鲁棒性评估的多样化视觉问答

本研究针对视觉语言模型在视觉-语言推理能力，尤其是在计数和空间推理方面的不足进行探讨，同时现有基准未能有效评估其鲁棒性。我们提出DARE，一个多项选择的视觉问答基准，通过五个多样化类别和四个基于变异的鲁棒性评估，发现最先进的视觉语言模型在大多数类别的问题上表现不佳，且在鲁棒性评估中的表现波动较大。

Sep, 2024