检测缺乏上下文的多模态情况并避免无根据的预测

May, 2024

检测缺乏上下文的多模态情况并避免无根据的预测

Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions

Junzhang Liu, Zhecan Wang, Hammad Ayyubi, Haoxuan You, Chris Thomas...

TL;DR通过收集上下文数据并训练一个上下文选择模块来解决 VLU 基准测试中普遍存在的问题，防止模型依赖无法支持的假设进行训练，同时开发了一个通用的 CARA 检测器来增强模型准确性，并且通过创建 CASE 集评估不充分的上下文检测器的性能，这些工作显著推进了在复杂现实场景中生成可信可靠的视觉语言模型的发展。

Abstract

Despite the widespread adoption of vision-language understanding (VLU) benchmarks such as VQA v2, OKVQA, A-OKVQA, GQA, VCR, SWAG, and VisualCOMET, our analysis reveals a pervasive issue affecting their integrity: these benchmarks contain samples where answers rely on assumptions unsupp

vision-language understanding contextual data biased learning evidence-based model predictions context-aware abstention

发现论文，激发创造

图像中的视觉针在感知和描述的背景中很容易迷失

LoCoVQA 是一个用于评估视觉语言模型（VLM）中的长篇上下文抽取推理的动态基准生成器。该测试评估了 VLM 在回答问题时如何忽略无关信息的能力，表明目前的最先进 VLM 在许多长篇上下文应用中缺乏这种关键能力。

Jun, 2024

不要断章取义：统一的视觉语言预训练为上下文辅助的图像字幕生成

本文提出了一个基于 context-aware image captioning 的 unified Vision-Language (VL) model，并利用 pretraining 技术解决了 context-independent 问题，以达到比以前更好的效果。

Jun, 2023

利用语言偏见学习内容和上下文的视觉问答

通过建立基于内容和上下文的 CCB 模型，可以减少语言偏差，同时提高 Visual Question Answering (VQA) 模型的学习能力。

Dec, 2020

上下文感知的目的明确视觉问答

通过引入 Context-VQA 数据集，我们发现上下文会影响问题的类型，对于满足人们的需求，尤其是在可访问性设置中，VQA 模型应该具有上下文敏感性。

Jul, 2023

SwapMix: 检测和规范视觉问答中过度依赖视觉上下文

通过一种名为 SwapMix 的简单有效的扰动技术，我们发现可代表性 VQA 模型的问题答案可以被改变超过 45％。此外，我们还发现模型的上下文依赖性高度取决于视觉表征的质量，并且 SwapMix 可以作为数据增强策略应用于训练中以调整上下文依赖性。

Apr, 2022

有选择性地回答视觉问题

近期，大型多模态模型在视觉任务中表现出前所未有的精确性，尤其对于帮助盲人或视障人士提供准确答案至关重要，而模型的校准和不确定性量化对于有选择性地回答问题或请求澄清非常重要。我们对在上下文学习的多模态模型上进行 VQA 校准方法和度量的深入分析，研究了两个回答能力基准测试中的 VQA，结果显示，对于上下文学习来说，视觉模型的可能性得分比其纯文本模型更为校准，尽管基于采样的方法通常更优，但没有明确的赢家。我们提出了 Avg BLEU，这是一种结合了两种模式的采样和可能性方法优点的校准评分。

Jun, 2024

通过合成任务数据评估多模态推理模型的能力

该论文通过高分辨率的文本图像生成技术，开发了一种针对多模态推理任务的评估数据生成框架，并使用此框架生成了一种复杂且缺乏数据集支持的任务的合成数据集，以进行性能测试。研究发现，在这项任务上，最先进的视觉问答模型的性能明显低于标准 VQA 任务。

Jun, 2023

SK-VQA：用于训练上下文增强的多模态 LLM 的大规模合成知识生成

我们生成了一个包含超过 200 万个问题 - 答案对的大型综合多模态数据集 SK-VQA，该数据集需要外部知识来确定最终答案。通过广泛的实验，我们证明我们的合成数据集不仅可以作为一个具有挑战性的基准测试，而且对于调整现有的生成性多模态模型以进行上下文增强生成也非常有效。

Jun, 2024

揭示视觉问答中交叉模态偏见：基于可能世界的因果视角 VQA 分析

本文介绍了一种同时减少 VQA 系统中视觉和语言偏差的方法，并推出了一种解释策略，最终在 VQA-CP v2 数据集上取得了比现有方法更好的结果。

May, 2023

科学问答中通过上下文扰动表征 LLM 回避行为

在这项研究中，我们研究了 LLMs 在提供不充分或不正确的上下文时放弃回答具有环境依赖性的科学问题的能力。通过在四个 QA 数据集上进行实验，我们展示了性能在模型之间、提供的上下文类型之间以及问题类型之间存在巨大的差异。我们的分析还突显了放弃回答表现对 QA 任务准确性的意外影响，表明需要改进 QA 数据集的设计和评估方法，以更有效地评估模型放弃回答的正确性和下游影响。

Apr, 2024