不可解问题检测：评估视觉语言模型的可信度

Mar, 2024

不可解问题检测：评估视觉语言模型的可信度

Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models

Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Qing Yu...

TL;DR本文介绍了一项名为无法解决问题检测（UPD）的视觉语言模型（VLM）的新挑战，通过视觉问答（VQA）任务中遇到无法解决的问题来考察 VLM 在保留答案方面的能力。我们通过广泛的实验发现，包括 GPT-4V 和 LLaVA-Next-34B 在内的大多数 VLM 都在不同程度上面临我们的基准测试的困难，凸显了改进的重要空间。为了解决 UPD 问题，我们探索了无需训练和基于训练的解决方案，为它们的有效性和局限性提供了新的见解。我们希望我们的见解，以及在所提出的 UPD 设置下的未来努力，能够增强对更实用和可靠的 VLM 的广泛理解和开发。

Abstract

This paper introduces a novel and significant challenge for Vision Language Models (VLMs), termed unsolvable problem detection (UPD). UPD examines the VLM's ability to withhold answers when faced with unsolvable problems in the context of →

unsolvable problem detection vision language models visual question answering absent answer detection incompatible answer set detection

发现论文，激发创造

视觉 - 语言模型的不确定性感知评估

提出了一种利用置信度量化的方式评估视觉 - 语言模型，研究发现模型的不确定性与准确性存在相关性。

Feb, 2024

过度自信是关键：大型语言和视觉 - 语言模型中的口头不确定性评估

该论文评估了语言和视觉 - 语言模型的可靠性，并提出了新的日本不确定场景数据集以及测量校准误差的方法。结果表明，语言和视觉 - 语言模型都存在较高的校准误差，并且大部分时间都表现出过度自信，说明其对不确定性估计的能力较弱。此外，研究还发展了回归任务的提示方法，并证明视觉 - 语言模型在生成均值 / 标准差和 95% 置信区间时存在校准不良。

May, 2024

UDKAG: 增强大型视觉语言模型的最新知识

提出了一种名为 UDKAG 的框架，通过互联网搜索来为 Large vision-language models 提供最新的知识，以应对视觉问答。使用层级过滤模型从搜索引擎返回的网站中有效地找到最有帮助的内容。实验结果表明，该框架的效果比 GPT-4V 高出约 25%。

May, 2024

IllusionVQA：一个为视觉语言模型设计的具有挑战性的视错觉数据集

Vision Language Models are tested on the IllusionVQA dataset, revealing their performance and weaknesses in comprehension and soft localization tasks, particularly in the context of optical illusions and In-Context Learning.

Mar, 2024

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023

重新思考视觉问答中的评估实践：针对分布外泛化的案例研究

研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题，而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估，证明生成模型在大多数情况下对数据分布变化不太敏感，并在测试基准中表现更好。另外，我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后，本文重新审视了自动 VQA 评估度量的假设，并从经验上证明它们的严格性会反复惩罚模型的正确响应。

May, 2022

构建多语言视觉文本数据集揭示视觉语言模型的多语言能力

我们通过模板构建了四种语言的多语言视觉文本数据集，介绍了九项视觉语言任务，并引入了解释机制以评估大型语言模型在视觉语言任务上的表现。

Mar, 2024

基于无法回答的数学问题对大型语言模型中的幻象进行基准测试

使用非可回答的数学问题 (UMWP) 的数据集和文本相似度与数学表达式检测相结合的方法，评估了大型语言模型 (LLMs) 在问答任务中的幻觉问题，并通过对 31 个 LLM 进行广泛实验的结果表明，上下文学习和人工反馈强化学习 (RLHF) 训练可以明显提高模型避免幻觉的能力。

Mar, 2024

多模态不确定性感知视觉 - 语言预训练模型

本文通过概率分布编码器（PDE）将所有模态的表示作为概率分布映射，对不确定性建模，提出了基于概率分布的预训练任务并在视觉和语言联合任务上实现了最先进的结果。

Oct, 2022

视觉程序蒸馏：将工具和编程推理融入视觉 - 语言模型

通过 Visual Program Distillation (VPD) 框架将大型语言模型 (LLM) 的理解能力提炼到一个具备单次前向传递解决复杂视觉任务的视觉 - 语言模型 (VLM) 上，从而改善计数、理解空间关系和组合推理等能力，并在真实世界的应用（有限数据情况下的内容管理）中得到验证。

Dec, 2023