FlowVQA：将流程图用于视觉问答中的多模态逻辑映射

Jun, 2024

FlowVQA：将流程图用于视觉问答中的多模态逻辑映射

FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts

Shubhankar Singh, Purvi Chaurasia, Yerram Varun, Pranshu Pandya, Vatsal Gupta...

TL;DRFlowVQA 是一个新颖的基准测试，旨在评估多模态语言模型在使用流程图作为视觉上下文进行推理的能力，其组成包括来自三个不同内容来源的 2,272 张经过精心生成和人工验证的流程图像以及 22,413 个多样化的问答对，以测试一系列推理任务，包括信息定位、决策和逻辑推进。在开源和专有的多模态语言模型上进行了彻底的基准评估，使用了各种策略，并对方向性偏差进行了分析。结果强调了这个基准测试作为推进多模态建模领域的重要工具的潜力，为提高模型在视觉和逻辑推理任务中的性能提供了一个专注和具有挑战性的环境。

Abstract

Existing benchmarks for visual question answering lack in visual grounding and complexity, particularly in evaluating spatial reasoning skills. We introduce →

visual question answering flowvqa spatial reasoning flowcharts multimodal modeling

发现论文，激发创造

mChartQA：基於視覺語言對齊和推理的跨模態圖表問答通用基準

该论文介绍了一种新颖的多模态图表问答模型，专门设计用于处理复杂的多模态任务，通过融合视觉和语言处理，克服了传统方法的局限性，采用双阶段训练方法，在处理色彩、结构和无文字图表问题方面表现出优异性能。

Apr, 2024

WebQA：多跳和多模态 QA

本论文中，我们提出了 WebQA，它引入了一个具有挑战性的新测量标准，该标准涉及大规模最先进模型的困难之处，缺乏新颖对象的语言基础视觉表达和推理能力，但对人类来说却很简单。我们的社区挑战是创建统一的多模态推理模型，这些模型可以回答问题，而不考虑源模态，从而使我们更接近不仅查询语言知识，而且查询更丰富的视觉在线世界的数字助手。

Sep, 2021

Mucko: 基于事实的视觉问答的多层交叉模态知识推理

本文提出了一种多模态异构图神经网络来解决基于事实的视觉问答问题，该模型通过逐层的图卷积网络对问题相关证据进行迭代式推理，并在多种数据集上获得了最新的最佳成绩。

Jun, 2020

ChartQA: 针对图表的问题回答的视觉和逻辑推理基准

本文提出了一个大规模基准测试，包括 9.6K 个人为编写的问题和 23.1K 个由人类编写的图表摘要生成的问题，并运用两种基于 Transformer 的模型来回答问题，这些模型将图表的视觉特征和数据表统一起来处理来解决目标检测中的视觉和逻辑推理等问题。

Mar, 2022

VQA-GNN：用多模态语义图推理进行视觉问答

本文介绍了 Visual Question Answering——Graph Neural Network 模型，用于解决视觉理解中的概念层次推理问题，与现有模型相比，该模型将图像级别信息和概念知识进行了统一，并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外，该模型还提供了跨视觉和文本知识领域的可解释性。

May, 2022

基于跨模态知识推理的基于知识的视觉问答

本文提出了基于多个知识图谱的知识的视觉问答模型，通过串联的 GRUC 模块，对不同模态的图像信息进行并行推理，最终利用图神经网络获得全局最优解，在三个流行基准数据集上获得新的 state-of-the-art 表现结果。

Aug, 2020

多模态大型语言模型中的图推理图渲染

本文探讨了在图推理任务中将视觉信息与文本信息相结合的可行性，并使用基准测试 GITQA 以及多模态 LLM 模型进行了实验证明了在图推理任务中使用文本和视觉信息相结合要好于单一模态。

Feb, 2024

多模态大型语言模型的流程图理解的多维度评估

我们提出了综合评估方法 FlowCE，以评估多模态大语言模型（MLLMs）在与流程图相关的任务中的各种能力。

Jun, 2024

MultiModalQA: 文本、表格和图像的复杂问答

本文介绍了一个名为 “MultiModalQA (MMQA)” 的数据集，该数据集需要通过对文本、表格和图像的联合推理来回答问题。作者还创建了一个新框架来生成复杂的多模态问题，并演示了多模态多跳方法在解决这一任务中的必要性。

Apr, 2021

神经符号视觉推理：将 “视觉” 与 “推理” 分离

本文提出一个框架来单独评估视觉问答（VQA）中的推理方面，同时引入一种新颖的自上而下校准技术，以使模型即使具有不完美的感知也能回答推理问题，通过在具有挑战性的 GQA 数据集上进行深入的分离比较，可以了解到众所周知的 VQA 模型参与的见解以及任务。

Jun, 2020