有选择性地回答视觉问题

Jun, 2024

Selectively Answering Visual Questions

Julian Martin Eisenschlos, Hernán Maina, Guido Ivetta, Luciana Benotti

TL;DR近期，大型多模态模型在视觉任务中表现出前所未有的精确性，尤其对于帮助盲人或视障人士提供准确答案至关重要，而模型的校准和不确定性量化对于有选择性地回答问题或请求澄清非常重要。我们对在上下文学习的多模态模型上进行 VQA 校准方法和度量的深入分析，研究了两个回答能力基准测试中的 VQA，结果显示，对于上下文学习来说，视觉模型的可能性得分比其纯文本模型更为校准，尽管基于采样的方法通常更优，但没有明确的赢家。我们提出了 Avg BLEU，这是一种结合了两种模式的采样和可能性方法优点的校准评分。

Abstract

Recently, large multi-modal models (LMMs) have emerged with the capacity to perform vision tasks such as captioning and visual question answering (→

large multi-modal models vision tasks calibration methods in-context learning vqa

发现论文，激发创造

利用大型语言模型改进自动 VQA 评估

借助大型语言模型的上下文学习能力，我们提出了一个更好的 VQA 评估指标，该指标在多个 VQA 模型和基准测试中与人类判断更好地相关，希望广泛采用我们的指标以更好地估计 VQA 任务的研究进展。

Oct, 2023

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

视觉问答指导：解锁面向特定领域视觉多任务的多模态大型语言模型

使用大型语言模型和多模态语言模型，我们开发了一种方法将特定领域的视觉和视觉 - 语言数据集转化为统一的问答格式，从而扩展了多模态语言模型用于特定领域任务，实验结果表明该方法在特定领域的视觉任务和视觉 - 语言任务上达到了高分数指标并保持了多任务的性能。

Feb, 2024

大型语言模型为文本丰富的 VQA 带来的优势

基于文本识别的图像视觉问答是一个跨模态任务，需要图像理解和文本识别。本文研究了基于 LLM 方法在解决此问题时的优势和瓶颈，并通过整合 OCR 模块和 MLLM 发现多数 MLLM 可以理解 OCR 信息，为训练保留 LLM 能力提供了启示。

Nov, 2023

LOVA3：学习视觉问答、提问和评估

通过引入名为 LOVA3 的创新框架，我们的研究旨在扩展 Multimodal Large Language Models（MLLMs）的能力，包括回答、提问和评估问题，在提高多模态理解能力和性能方面取得了一致的改进。

May, 2024

重新思考视觉问答中的评估实践：针对分布外泛化的案例研究

研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题，而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估，证明生成模型在大多数情况下对数据分布变化不太敏感，并在测试基准中表现更好。另外，我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后，本文重新审视了自动 VQA 评估度量的假设，并从经验上证明它们的严格性会反复惩罚模型的正确响应。

May, 2022

KNVQA：用于评估基于知识的视觉问答的基准

该研究论文提出了一种新的知识驱动图像问答（KNVQA）评估方法，以解决大型视觉 - 语言模型在现实场景中存在的物体虚构和事实准确性两个关键问题，并开发了相应的 KNVQA 数据集进行评估，从而有效评估现有方法的细粒度能力并为大型视觉 - 语言模型的进一步优化提供潜在思路。

Nov, 2023

视觉问答的潜变量模型

本文提出使用潜在变量模型来解决视觉问答问题，将额外信息（如标题和答案类别）作为潜在变量进行训练，提高了问题回答性能。实验表明该方法在 VQA v2.0 基准测试数据集上优于其他方法。

Jan, 2021

自监督反事实度量学习用于去偏视觉问答

我们提出了一种自我监督的反事实度量学习方法来应对 VQA 中的语言偏见问题，该方法可以自适应地选择与问题相关的视觉特征来回答问题，从而减少与问题不相关的视觉特征对推断答案的负面影响，实验证明了我们方法对 VQA-CP 数据集具有提升效果。

Apr, 2023

生成式视觉问答

本研究探讨了一种新的方法来创建先进的视觉问答（VQA）模型，可以在时间泛化上产生成功的结果。通过利用来自 VQAv2 和 MS-COCO 数据集的图像和标题，通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的 VQA 模型的组合。该研究的目的是调查几个成功的 VQA 模型的稳健性，评估它们对未来数据分布的性能。分析模型架构，识别改进时间分布偏移下的泛化能力的常见风格选择。这项研究突出了创建大规模未来偏移数据集的重要性，这些数据可以增强 VQA 模型的稳健性，使其未来的同行能够更好地适应时间分布的变化。

Jul, 2023