Plot2Code:用于评估科学图形代码生成的多模态大型语言模型的综合基准
在代码编写过程中,开发人员通常利用视觉辅助工具更有效地传达概念。然而,最近在大型多模态模型方面的发展表明在视觉推理和数学任务方面取得了显著能力,但在研究这些模型是否能够有效地解释用于代码生成的视觉元素方面几乎没有相关工作。为此,我们提出了 MMCode,这是第一个用于在视觉丰富的环境中评估算法问题解决能力的多模态编码数据集,包含了 3548 个问题和 6620 张图片,这些数据来自于 10 个代码竞赛网站采集的现实世界的编程挑战,由于对推理能力的极高要求而具有显著的挑战性。我们的实验结果表明,现有最先进的模型在解决这些问题时存在困难。这些结果突显了缺乏强大的视觉 - 代码模型,我们希望 MMCode 可以成为这个领域未来工作的启示。该数据集和代码可以在提供的网址公开获取。
Apr, 2024
提出了一种用于网页理解和 HTML 代码翻译的基准测试以及多模态大型语言模型的能力评估框架,包括预训练语言模型增强现有数据集和生成新网页图像等内容,并通过广泛实验证明了该数据集的价值。
Jun, 2024
通过综合评估,我们发现 GPT-4V 在将视觉设计转换为代码实现的任务中表现最佳,其生成的网页在视觉外观和内容方面可以替代原始参考网页的 49%,并且在 64%的情况下被认为比原始参考网页更好。
Mar, 2024
我们介绍了一个新的基准测试,ChartMimic,旨在评估大型多模态模型(LMMs)的视觉基础代码生成能力。ChartMimic 利用信息密集型的可视化图表和文本说明作为输入,要求 LMMs 生成相应的代码以进行图表渲染。ChartMimic 包含了 1,000 个人工策划的(图表,说明,代码)三元组,代表了在各个领域(如物理学,计算机科学,经济学等)的科学论文中找到的真实图表用例。这些图表涵盖了 18 种常规类型和 4 种高级类型,分为 191 个子类别。此外,我们提出了多级评估指标,以对输出代码和渲染后的图表进行自动和全面的评估。与现有的代码生成基准测试不同,ChartMimic 强调评估 LMMs 在视觉理解、代码生成和跨模态推理等多种认知能力的融合能力。对 3 个专有模型和 11 个开源模型的评估突出了 ChartMimic 所带来的巨大挑战。即使是先进的 GPT-4V 和 Claude-3-opus 平均得分分别为 73.2 和 53.7,表明仍有很大的改进空间。我们预计 ChartMimic 将激发 LMMs 的发展,推动人工通用智能的追求。
Jun, 2024
我们提出了 SEED-Bench-2,这是一个综合评估多模态大型语言模型能力的基准测试,并通过对 23 个主要开源多模态大型语言模型的性能评估,揭示了现有模型的局限性。
Nov, 2023
最近,大型语言模型(LLMs),特别是那些在代码上进行预训练的模型,展现出了从自然语言输入中以少量甚至无需样本的方式生成程序的强大能力。然而,这些模型的语言到代码生成能力缺乏全面的评估。本研究通过 L2CEval 系统地评估了 LLMs 在 7 个任务(包括语义解析、数学推理和 Python 编程)中的语言到代码生成能力,分析了可能影响它们性能的因素,如模型大小、预训练数据、指令调整和不同的提示方法。除了评估模型性能,我们还衡量了模型的置信度校准情况,并对输出的程序进行人工评估。这使我们能够识别并分析各种任务和模型的典型失败模式。L2CEval 提供了对 LLMs 在语言到代码生成方面能力和限制的全面了解。同时,我们还发布了评估框架和所有模型输出,希望为今后在该领域的进一步研究奠定基础。
Sep, 2023
我们介绍了 SEED-Bench-2-Plus,这是一个专门设计用于评估 MLLMs 的文本丰富视觉理解的基准,通过涵盖现实世界中的三个广泛类别(图表、地图和网络),它们有效地模拟了复杂多样的文本丰富环境,并强调了当前 MLLMs 在文本丰富视觉理解方面的限制。
Apr, 2024
本研究探讨了大型语言模型 (LLMs) 在二进制代码理解中的潜力,通过引入一个包含超过 557K 个二进制函数的全面基准和数据集 BinSum,以及一种新的提示综合和优化方法,并提出了一种新的语义相似度度量方法,对 ChatGPT、GPT-4、Llama 2 和 Code Llama 等知名 LLMs 进行了广泛评估,得出了 10 个关键见解,强调了 LLMs 在该领域的变革潜力以及尚待克服的挑战。
Dec, 2023
本文介绍了 MatPlotAgent,一种高效的模型无关的大型语言模型(LLM)代理框架,用于自动化科学数据可视化任务,并提出了一个使用 GPT-4V 进行自动评估的评分方法,实验结果表明 MatPlotAgent 可以提高各种 LLM 的性能。
Feb, 2024
通过强化多模态图表分析能力,我们构建了多模态图表理解数据集 M-Paper 并引入了控制信号‘outline’,通过与先进的多模态语言模型的全面实验,证明了在我们的数据集上进行训练能够展现更强大的科学图表理解性能.
Nov, 2023