Jun, 2024

FlowVQA:将流程图用于视觉问答中的多模态逻辑映射

TL;DRFlowVQA 是一个新颖的基准测试,旨在评估多模态语言模型在使用流程图作为视觉上下文进行推理的能力,其组成包括来自三个不同内容来源的 2,272 张经过精心生成和人工验证的流程图像以及 22,413 个多样化的问答对,以测试一系列推理任务,包括信息定位、决策和逻辑推进。在开源和专有的多模态语言模型上进行了彻底的基准评估,使用了各种策略,并对方向性偏差进行了分析。结果强调了这个基准测试作为推进多模态建模领域的重要工具的潜力,为提高模型在视觉和逻辑推理任务中的性能提供了一个专注和具有挑战性的环境。