面包或吉娃娃？用多面板视觉语言模型挑战性大的 VQA 任务

Jan, 2024

面包或吉娃娃？用多面板视觉语言模型挑战性大的 VQA 任务

Muffin or Chihuahua? Challenging Large Vision-Language Models with Multipanel VQA

Yue Fan, Jing Gu, Kaiwen Zhou, Qianqi Yan, Shan Jiang...

TL;DR通过介绍 Multipanel Visual Question Answering (MultipanelVQA) 基准测试，本研究揭示了 Large Vision Language Models (LVLMs) 对于多子图像的理解存在的挑战，并强调了改进 LVLMs 在理解复杂视觉语境方面的需求和方向。

Abstract

multipanel images, commonly seen as web screenshots, posters, etc., pervade our daily lives. These images, characterized by their composition of multiple subfigures in distinct layouts, effectively convey information to people. Toward building advanced →

multipanel images multimodal ai visual reasoning benchmark large vision language models (lvlms)

发现论文，激发创造

CVQA：跨文化多语言视觉问答基准

构建了 CVQA，一个新的多元文化多语言视觉问答基准，覆盖了 28 个国家的文化驱动图像和问题，包括 26 种语言和 11 种文字，共提供了 9k 个问题。针对 CVQA 对几种多模态大型语言模型进行了基准测试，显示出该数据集对当前最先进的模型具有挑战性。这一基准测试可以作为评估多模态模型的文化能力和偏见的探测套件，并希望鼓励更多研究努力来增加该领域中的文化意识和语言多样性。

Jun, 2024

VLSP2022-EVJVQA 挑战：多语言视觉问答

本文提出了一个基于越南图片的多语言视觉问答基准数据集 EVJVQA，用于评估多语言 VQA 系统或模型，并详细介绍了 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022) 的组织、方法和结果，其中前两个团队使用 ViT 预训练模型和 mT5 预训练语言模型实现多语言 QA 系统。

Feb, 2023

视觉问答指导：解锁面向特定领域视觉多任务的多模态大型语言模型

使用大型语言模型和多模态语言模型，我们开发了一种方法将特定领域的视觉和视觉 - 语言数据集转化为统一的问答格式，从而扩展了多模态语言模型用于特定领域任务，实验结果表明该方法在特定领域的视觉任务和视觉 - 语言任务上达到了高分数指标并保持了多任务的性能。

Feb, 2024

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

WebQA：多跳和多模态 QA

本论文中，我们提出了 WebQA，它引入了一个具有挑战性的新测量标准，该标准涉及大规模最先进模型的困难之处，缺乏新颖对象的语言基础视觉表达和推理能力，但对人类来说却很简单。我们的社区挑战是创建统一的多模态推理模型，这些模型可以回答问题，而不考虑源模态，从而使我们更接近不仅查询语言知识，而且查询更丰富的视觉在线世界的数字助手。

Sep, 2021

MaXM：面向多语言视觉问答的模型

本文提出了可伸缩的解决方案，涉及多语言视觉问答（mVQA）的数据生成和建模，最终在 13 种语言中展现出强大性能，同时也创造了 MaXM（一个在 7 种不同语言下的纯测试数据集），从而使得 mVQA 不仅限于英语，而是扩展到其他语言中。

Sep, 2022

视觉语言问答 (VLQA) 挑战赛

新方法和基础性性能的比较与现有机器学习方法中挑战的问题进行了讨论，最终提出了 Visuo-Linguistic Question Answering 作为计算机视觉和自然语言处理的基准测试集。

May, 2020

视觉问答最近进展综述

该论文综述了不同方法来解决视觉问答的问题，特别是描述了各种算法提取图像特征和文本特征的方法，并讨论了评估 VQA 模型的实验，并报告了它们在各种数据集上的表现。

Sep, 2017

从图像到语言：对视觉问答（VQA）方法、挑战和机遇的关键分析

通过调查 Visual Question Answering（视觉问题回答）领域的复杂性，本研究提供了对 VQA 数据集和方法的详细分类，展示了该领域的最新趋势、挑战和改进方向，并将 VQA 推广到多模态问答，探索与 VQA 相关的任务，并提出了一系列未来研究的开放性问题。

Nov, 2023

KNVQA：用于评估基于知识的视觉问答的基准

该研究论文提出了一种新的知识驱动图像问答（KNVQA）评估方法，以解决大型视觉 - 语言模型在现实场景中存在的物体虚构和事实准确性两个关键问题，并开发了相应的 KNVQA 数据集进行评估，从而有效评估现有方法的细粒度能力并为大型视觉 - 语言模型的进一步优化提供潜在思路。

Nov, 2023