Apr, 2024

使用丰富视觉编程问题评估多模态编程大型语言模型

TL;DR在代码编写过程中,开发人员通常利用视觉辅助工具更有效地传达概念。然而,最近在大型多模态模型方面的发展表明在视觉推理和数学任务方面取得了显著能力,但在研究这些模型是否能够有效地解释用于代码生成的视觉元素方面几乎没有相关工作。为此,我们提出了 MMCode,这是第一个用于在视觉丰富的环境中评估算法问题解决能力的多模态编码数据集,包含了 3548 个问题和 6620 张图片,这些数据来自于 10 个代码竞赛网站采集的现实世界的编程挑战,由于对推理能力的极高要求而具有显著的挑战性。我们的实验结果表明,现有最先进的模型在解决这些问题时存在困难。这些结果突显了缺乏强大的视觉 - 代码模型,我们希望 MMCode 可以成为这个领域未来工作的启示。该数据集和代码可以在提供的网址公开获取。