利用大型语言模型改进自动 VQA 评估

Oct, 2023

利用大型语言模型改进自动 VQA 评估

Improving Automatic VQA Evaluation Using Large Language Models

Oscar Mañas, Benno Krojer, Aishwarya Agrawal

TL;DR借助大型语言模型的上下文学习能力，我们提出了一个更好的 VQA 评估指标，该指标在多个 VQA 模型和基准测试中与人类判断更好地相关，希望广泛采用我们的指标以更好地估计 VQA 任务的研究进展。

Abstract

8 years after the visual question answering (VQA) task was proposed, accuracy remains the primary metric for automatic evaluation. VQA Accuracy has been effective so far in the IID evaluation setting. However, ou

visual question answering automatic evaluation vqa accuracy metric generative models vqa systems

发现论文，激发创造

有选择性地回答视觉问题

近期，大型多模态模型在视觉任务中表现出前所未有的精确性，尤其对于帮助盲人或视障人士提供准确答案至关重要，而模型的校准和不确定性量化对于有选择性地回答问题或请求澄清非常重要。我们对在上下文学习的多模态模型上进行 VQA 校准方法和度量的深入分析，研究了两个回答能力基准测试中的 VQA，结果显示，对于上下文学习来说，视觉模型的可能性得分比其纯文本模型更为校准，尽管基于采样的方法通常更优，但没有明确的赢家。我们提出了 Avg BLEU，这是一种结合了两种模式的采样和可能性方法优点的校准评分。

Jun, 2024

利用分类数据集和它们的语义层次对视觉语言模型进行开放式视觉问答基准测试

通过提出创新的评估方法并修正现有的视觉问答基准，我们的研究旨在推进我们对文本生成视觉语言模型能力的理解，提出了一种基于著名视觉分类数据集的新型视觉问答基准，可以对文本生成视觉语言模型进行细粒度评估，并与辨别性视觉语言模型进行比较。我们建议利用标签空间的语义层次结构为细粒度分类任务中的粗略答案提出自动生成的后续问题，以改善评估模型预测的传统自然语言处理和基于语言模型的度量标准。我们进行了人工评估研究，基于这项研究，我们决定采用最终的度量标准。我们将我们的基准应用于一套视觉语言模型，并详细比较了它们在对象、行为和属性分类方面的能力。我们的研究为更精确、有意义的评估奠定基础，促进了视觉语言建模领域的有针对性进展。

Feb, 2024

KNVQA：用于评估基于知识的视觉问答的基准

该研究论文提出了一种新的知识驱动图像问答（KNVQA）评估方法，以解决大型视觉 - 语言模型在现实场景中存在的物体虚构和事实准确性两个关键问题，并开发了相应的 KNVQA 数据集进行评估，从而有效评估现有方法的细粒度能力并为大型视觉 - 语言模型的进一步优化提供潜在思路。

Nov, 2023

重新思考视觉问答中的评估实践：针对分布外泛化的案例研究

研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题，而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估，证明生成模型在大多数情况下对数据分布变化不太敏感，并在测试基准中表现更好。另外，我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后，本文重新审视了自动 VQA 评估度量的假设，并从经验上证明它们的严格性会反复惩罚模型的正确响应。

May, 2022

视觉 - 语言模型的不确定性感知评估

提出了一种利用置信度量化的方式评估视觉 - 语言模型，研究发现模型的不确定性与准确性存在相关性。

Feb, 2024

为视觉问答填补图像信息缺口：引导大规模语言模型主动提问

通过设计一种框架，使得大型语言模型能够主动提问以揭示图像中的更多细节，改进了知识驱动的视觉问答任务的性能。

Nov, 2023

在大语言模型时代评估开放领域问答

通过人工评估，我们发现使用 InstructGPT 在 NQ-open 取得了新的最优结果，且所有模型的真实性能均被显著低估，同时超过 50％的词汇匹配失败归因于意义相当的答案，正则匹配排名与人类判断一致

May, 2023

评估开放式问答系统评估

本研究针对认知智能领域中的 Open Question Answering 任务进行评估，提出了 QA Evaluation 任务和相应的数据集，在考虑到自动评估方法的局限性的基础上，采用人工评估来更准确地衡量基于人工智能的答案的准确性和 F1 分数，并研究表现高度相关且更可靠的评估方法以及当前方法的缺陷，最终生成的数据集有望促进更有效的自动评估工具的发展。

May, 2023

属性问答：针对属性化大语言模型的评估和建模

本文研究基于属性的 LLM 发展，在开发 Attributed LLMs 的第一步骤中提出可重复的 Attributed QA 评估框架并评估多种结构。实验结果探讨了如何度量归属（attribution）以及现有方法在归属方面的表现如何，并提出了建立带归属特性的 LLMs 的可能方向。

Dec, 2022

重新思考基于生成的大型语言模型对语义理解的评估

通过对 24 种模型的 11 个评估标准进行综合评估，本文首先回顾了当前的评估方法 —— 多项选择题回答（MCQA），并突出了 MCQA 的一些潜在缺点，接着引入了 RWQ-Elo 评分系统，通过 24 种大型语言模型的竞争性对战，模拟现实世界的使用情景，最后分析了系统特点、与先前排行榜的对比，揭示了 RWQ-Elo 系统的稳定性、注册新模型的可行性和其重塑 LLM 排行榜的潜力。

Mar, 2024