KNVQA：用于评估基于知识的视觉问答的基准

Nov, 2023

KNVQA：用于评估基于知识的视觉问答的基准

KNVQA: A Benchmark for evaluation knowledge-based VQA

Sirui Cheng, Siyu Zhang, Jiayi Wu, Muchen Lan

TL;DR该研究论文提出了一种新的知识驱动图像问答（KNVQA）评估方法，以解决大型视觉 - 语言模型在现实场景中存在的物体虚构和事实准确性两个关键问题，并开发了相应的 KNVQA 数据集进行评估，从而有效评估现有方法的细粒度能力并为大型视觉 - 语言模型的进一步优化提供潜在思路。

Abstract

Within the multimodal field, large vision-language models (LVLMs) have made significant progress due to their strong perception and reasoning capabilities in the visual and language systems. However, LVLMs are still plagued by the two critical issues of →

large vision-language models object hallucination factual accuracy knowledge-based vqa evaluation

发现论文，激发创造

OmniMedVQA：医学 LVLM 的新大规模综合评估基准

我们介绍了 OmniMedVQA，一个来自 75 个不同医疗数据集的医疗视觉问答基准，其中包括 12 个不同的模态和超过 20 个不同的解剖区域。我们发现现有的大型视觉语言模型在解决这些医疗视觉问答问题时存在困难，甚至在医学专业化的模型中也表现出劣于通用领域模型的性能，这要求在生物医学领域开发更加通用和强大的大型视觉语言模型。

Feb, 2024

利用大型语言模型改进自动 VQA 评估

借助大型语言模型的上下文学习能力，我们提出了一个更好的 VQA 评估指标，该指标在多个 VQA 模型和基准测试中与人类判断更好地相关，希望广泛采用我们的指标以更好地估计 VQA 任务的研究进展。

Oct, 2023

基于大型语言模型的知识导向视觉问答中的模态感知集成

基于知识的视觉问答（KVQA）对于利用外部知识，如知识图谱（KGs）来回答视觉问题进行了广泛研究。本文提出了一种新颖的 LLMs 模态感知集成方法（MAIL），用于 KVQA，它巧妙地利用多模态知识进行图像理解和知识推理，并在两个基准数据集上的实验证明了 MAIL 的卓越性能。

Feb, 2024

认知视觉语言映射器：通过增强视觉知识对齐推进多模态理解

在当前大型多模态模型的研究中，我们评估和重新思考了广泛使用的视觉语言投射方法（如 Q-former 或 MLP），发现它们侧重于图像 - 文本描述的对齐，但忽略了视觉知识维度的对齐，即将视觉元素与相关知识连接起来。本文主要探索通过视觉语言知识对齐来改进大型多模态模型，特别关注知识型视觉问题回答。为此，我们提出了一个认知视觉语言映射器（CVLM），包含一个预训练的视觉知识对齐器（VKA）和一个用于多模态指令调整阶段的细粒度知识适配器（FKA）。我们通过在知识型视觉问题回答基准测试上进行广泛实验证明，CVLM 显著提高了 LMM 在知识型视觉问题回答上的性能（平均提升 5%），消融研究也验证了 VKA 和 FKA 的有效性。

Feb, 2024

利用分类数据集和它们的语义层次对视觉语言模型进行开放式视觉问答基准测试

通过提出创新的评估方法并修正现有的视觉问答基准，我们的研究旨在推进我们对文本生成视觉语言模型能力的理解，提出了一种基于著名视觉分类数据集的新型视觉问答基准，可以对文本生成视觉语言模型进行细粒度评估，并与辨别性视觉语言模型进行比较。我们建议利用标签空间的语义层次结构为细粒度分类任务中的粗略答案提出自动生成的后续问题，以改善评估模型预测的传统自然语言处理和基于语言模型的度量标准。我们进行了人工评估研究，基于这项研究，我们决定采用最终的度量标准。我们将我们的基准应用于一套视觉语言模型，并详细比较了它们在对象、行为和属性分类方面的能力。我们的研究为更精确、有意义的评估奠定基础，促进了视觉语言建模领域的有针对性进展。

Feb, 2024

CVQA：跨文化多语言视觉问答基准

构建了 CVQA，一个新的多元文化多语言视觉问答基准，覆盖了 28 个国家的文化驱动图像和问题，包括 26 种语言和 11 种文字，共提供了 9k 个问题。针对 CVQA 对几种多模态大型语言模型进行了基准测试，显示出该数据集对当前最先进的模型具有挑战性。这一基准测试可以作为评估多模态模型的文化能力和偏见的探测套件，并希望鼓励更多研究努力来增加该领域中的文化意识和语言多样性。

Jun, 2024

KEBench: 大型视觉语言模型的知识编辑基准

基于多模态知识图，本研究构建了一个新的基准评估 $ extbf {KEBench}$，并扩展了一种新的评估指标（可移植性），通过对五个大型视觉语言模型进行不同编辑方法的实验，深入分析这些方法对模型的影响，揭示了这些方法的优点和不足，为未来的研究提供了启示。

Mar, 2024

有选择性地回答视觉问题

近期，大型多模态模型在视觉任务中表现出前所未有的精确性，尤其对于帮助盲人或视障人士提供准确答案至关重要，而模型的校准和不确定性量化对于有选择性地回答问题或请求澄清非常重要。我们对在上下文学习的多模态模型上进行 VQA 校准方法和度量的深入分析，研究了两个回答能力基准测试中的 VQA，结果显示，对于上下文学习来说，视觉模型的可能性得分比其纯文本模型更为校准，尽管基于采样的方法通常更优，但没有明确的赢家。我们提出了 Avg BLEU，这是一种结合了两种模式的采样和可能性方法优点的校准评分。

Jun, 2024

GAOKAO-MM: 中国多模态模型评估的人类水平基准

提出了 GAOKAO-MM，这是一个基于中国高考的多模态基准，评估了 10 个大型视觉语言模型 (LVLMs)，发现它们的准确率都低于 50％，排名前三的是 GPT-4-Vison（48.1％），Qwen-VL-Plus（41.2％）和 Gemini-Pro-Vision（35.1％）。多维分析结果表明 LVLMs 在人工通用智能 (AGI) 方面有适度的距离，并为多语言 LVLMs 的发展提供了启示。

Feb, 2024

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022