使用丰富视觉编程问题评估多模态编程大型语言模型

Apr, 2024

使用丰富视觉编程问题评估多模态编程大型语言模型

MMCode: Evaluating Multi-Modal Code Large Language Models with Visually Rich Programming Problems

Kaixin Li, Yuchen Tian, Qisheng Hu, Ziyang Luo, Jing Ma

TL;DR在代码编写过程中，开发人员通常利用视觉辅助工具更有效地传达概念。然而，最近在大型多模态模型方面的发展表明在视觉推理和数学任务方面取得了显著能力，但在研究这些模型是否能够有效地解释用于代码生成的视觉元素方面几乎没有相关工作。为此，我们提出了 MMCode，这是第一个用于在视觉丰富的环境中评估算法问题解决能力的多模态编码数据集，包含了 3548 个问题和 6620 张图片，这些数据来自于 10 个代码竞赛网站采集的现实世界的编程挑战，由于对推理能力的极高要求而具有显著的挑战性。我们的实验结果表明，现有最先进的模型在解决这些问题时存在困难。这些结果突显了缺乏强大的视觉 - 代码模型，我们希望 MMCode 可以成为这个领域未来工作的启示。该数据集和代码可以在提供的网址公开获取。

Abstract

programming often involves converting detailed and complex specifications into code, a process during which developers typically utilize visual aids to more effectively convey concepts. While recent developments in Large Multimodal Models have demonstrated remarkable abilities in

programming multi-modal coding visual reasoning code generation algorithmic problem-solving

发现论文，激发创造

Web2Code: 一个大规模的网页转代码数据集和多模态 LLMs 评估框架

提出了一种用于网页理解和 HTML 代码翻译的基准测试以及多模态大型语言模型的能力评估框架，包括预训练语言模型增强现有数据集和生成新网页图像等内容，并通过广泛实验证明了该数据集的价值。

Jun, 2024

推进大型多模型：明确的推理链与视觉问题生成

本文介绍了一种通过图像内容和文字指令进行显式推理的新方法，采用大型多模态模型（LMM），并引入了一个能够提问以获取必要知识以增强推理过程鲁棒性和可解释性的系统。实验结果表明我们的方法能够在面对模糊的视觉输入时，朝着更具鲁棒性、准确性和可解释性的 LMM 迈进。

Jan, 2024

使用 MATH-Vision 数据库测量多模态数学推理

我们通过提供一组全面多样的问题来评估大规模多模态模型的数学推理能力，并发现目前的模型在 MATH-V 数据集上与人类表现存在明显差距，强调了对大规模多模态模型的进一步发展的必要性，此外，我们的详细分类还允许对其错误进行全面分析，为未来的研究和开发提供有价值的见解。

Feb, 2024

Plot2Code：用于评估科学图形代码生成的多模态大型语言模型的综合基准

通过 Plot2Code 对大规模多模式语言模型的视觉编码进行全面评估，揭示了现有的大多数多模式语言模型在文字密集图中的视觉编码方面存在的困难，重度依赖于文本指导，希望评估结果能指导未来多模式语言模型的发展。

May, 2024

CODIS：面向多模态大型语言模型的上下文相关视觉理解基准测试

多模态大语言模型 (MLLMs) 在结合视觉和语言的各种任务中展现了有前景的结果。本研究引入了一个被命名为 CODIS 的新基准，旨在评估模型利用自由文本中提供的上下文来增强视觉理解能力。我们的研究结果显示 MLLMs 在该基准上始终无法达到人类表现水平，进一步分析证实这些模型在提取和利用上下文信息以改善对图像的理解方面存在困难，强调了提高 MLLMs 以上下文相关方式理解视觉信息的迫切需求。

Feb, 2024

CVPR2024 多模态算法推理任务 SMART-101 挑战解决方案

在本论文中，介绍了 HYU MLLAB KT 团队解决 SMART-101 CVPR 2024 Challenge：多模态算法推理任务。为了解决这个问题，我们提出了两个主要思路：利用大规模语言模型 (LLM) 的推理能力，将给定的视觉线索 (图像) 落实到文本模态中，并生成描述图像上下文的详细文本描述，然后将这些描述作为 LLM 的输入；为了确保不会忽视包含各种几何视觉模式的拼图图像的特性，我们利用目标检测算法来捕捉这些几何模式的视觉特征，并将这些信息作为 LLM 的输入。在拼图分割配置下，在测试集上实现了 29.5 的选项选择准确率 (Oacc)，在挑战集上实现了 27.1 的加权选项选择准确率 (WOSA)。

Jun, 2024

RoboCodeX: 机器人行为综合的多模态代码生成

提出了一种用于广义机器人行为综合的树状多模态代码生成框架 RoboCodeX，通过将高级人类指令分解为多个以物体为中心的操作单元，并应用代码生成来实现对各种机器人平台的广义化能力。通过预训练和迭代自更新方法引入了专门的多模态推理数据集，以增强将概念和感知理解转化为控制命令的能力。大量实验证明 RoboCodeX 在模拟器和真实机器人上在四种不同类型的操作任务和一种导航任务中实现了最先进的性能。

Feb, 2024

MM-Vet：评估大型多模态集成模型的能力

我们提出了一个评估基准 MM-Vet，它检查了复杂的多模态任务上的大型多模态模型（LMMs）。我们根据洞察力设计了 MM-Vet，该洞察力表明解决复杂任务的有趣能力通常是通过一种通用模型能够整合不同的核心视觉语言（VL）能力实现的。

Aug, 2023

推进几何问题求解：多模型评估的全面基准

通过 MM-MATH 数据集，该研究旨在评估多模态模型在几何计算领域的性能，发现当前模型从图像中解析和解释几何信息存在显著不足，强调评估方法应包括推理和过程正确性，以填补文本和图像理解方面的关键差距，以此激发进一步研究和发展，推动多模态模型能力的提升。

Apr, 2024

MM-PhyQA：多模态物理问题回答与多图 CoT 提示

利用现有模型对多步骤物理推理任务进行评估，通过引入多模态元素的高中级别物理问题的新数据集 MM-PhyQA，测试了包括 GPT-4 和 LLaVA 在内的多个大型语言模型的性能，并展示了基于 MI-CoT 提示技术的 LLaVA-1.5 13b 模型在测试集上的最佳结果，具有最高的 71.65% 准确率。

Apr, 2024