Plot2Code：用于评估科学图形代码生成的多模态大型语言模型的综合基准

May, 2024

Plot2Code：用于评估科学图形代码生成的多模态大型语言模型的综合基准

Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

PDF

Chengyue Wu, Yixiao Ge, Qiushan Guo, Jiahao Wang, Zhixuan Liang...

TL;DR通过 Plot2Code 对大规模多模式语言模型的视觉编码进行全面评估，揭示了现有的大多数多模式语言模型在文字密集图中的视觉编码方面存在的困难，重度依赖于文本指导，希望评估结果能指导未来多模式语言模型的发展。

Abstract

The remarkable progress of multi-modal large language models (mllms) has attracted significant attention due to their superior performance in visual contexts. However, their capabilities in turning visual figure

multi-modal large language models plot2code visual coding mllms evaluation results

发现论文，激发创造

使用丰富视觉编程问题评估多模态编程大型语言模型

在代码编写过程中，开发人员通常利用视觉辅助工具更有效地传达概念。然而，最近在大型多模态模型方面的发展表明在视觉推理和数学任务方面取得了显著能力，但在研究这些模型是否能够有效地解释用于代码生成的视觉元素方面几乎没有相关工作。为此，我们提出了 MMCode，这是第一个用于在视觉丰富的环境中评估算法问题解决能力的多模态编码数据集，包含了 3548 个问题和 6620 张图片，这些数据来自于 10 个代码竞赛网站采集的现实世界的编程挑战，由于对推理能力的极高要求而具有显著的挑战性。我们的实验结果表明，现有最先进的模型在解决这些问题时存在困难。这些结果突显了缺乏强大的视觉 - 代码模型，我们希望 MMCode 可以成为这个领域未来工作的启示。该数据集和代码可以在提供的网址公开获取。

Apr, 2024

Web2Code: 一个大规模的网页转代码数据集和多模态 LLMs 评估框架

提出了一种用于网页理解和 HTML 代码翻译的基准测试以及多模态大型语言模型的能力评估框架，包括预训练语言模型增强现有数据集和生成新网页图像等内容，并通过广泛实验证明了该数据集的价值。

Jun, 2024

Design2Code: 前端工程自动化的实现程度如何？

通过综合评估，我们发现 GPT-4V 在将视觉设计转换为代码实现的任务中表现最佳，其生成的网页在视觉外观和内容方面可以替代原始参考网页的 49％，并且在 64％的情况下被认为比原始参考网页更好。

Mar, 2024

ChartMimic: 通过图表生成代码评估 LMM 的跨模态推理能力

我们介绍了一个新的基准测试，ChartMimic，旨在评估大型多模态模型（LMMs）的视觉基础代码生成能力。ChartMimic 利用信息密集型的可视化图表和文本说明作为输入，要求 LMMs 生成相应的代码以进行图表渲染。ChartMimic 包含了 1,000 个人工策划的（图表，说明，代码）三元组，代表了在各个领域（如物理学，计算机科学，经济学等）的科学论文中找到的真实图表用例。这些图表涵盖了 18 种常规类型和 4 种高级类型，分为 191 个子类别。此外，我们提出了多级评估指标，以对输出代码和渲染后的图表进行自动和全面的评估。与现有的代码生成基准测试不同，ChartMimic 强调评估 LMMs 在视觉理解、代码生成和跨模态推理等多种认知能力的融合能力。对 3 个专有模型和 11 个开源模型的评估突出了 ChartMimic 所带来的巨大挑战。即使是先进的 GPT-4V 和 Claude-3-opus 平均得分分别为 73.2 和 53.7，表明仍有很大的改进空间。我们预计 ChartMimic 将激发 LMMs 的发展，推动人工通用智能的追求。

Jun, 2024

SEED-Bench-2：多模态大型语言模型基准测试

我们提出了 SEED-Bench-2，这是一个综合评估多模态大型语言模型能力的基准测试，并通过对 23 个主要开源多模态大型语言模型的性能评估，揭示了现有模型的局限性。

Nov, 2023

L2CEval: 评估大型语言模型的语言到代码生成能力

最近，大型语言模型（LLMs），特别是那些在代码上进行预训练的模型，展现出了从自然语言输入中以少量甚至无需样本的方式生成程序的强大能力。然而，这些模型的语言到代码生成能力缺乏全面的评估。本研究通过 L2CEval 系统地评估了 LLMs 在 7 个任务（包括语义解析、数学推理和 Python 编程）中的语言到代码生成能力，分析了可能影响它们性能的因素，如模型大小、预训练数据、指令调整和不同的提示方法。除了评估模型性能，我们还衡量了模型的置信度校准情况，并对输出的程序进行人工评估。这使我们能够识别并分析各种任务和模型的典型失败模式。L2CEval 提供了对 LLMs 在语言到代码生成方面能力和限制的全面了解。同时，我们还发布了评估框架和所有模型输出，希望为今后在该领域的进一步研究奠定基础。

Sep, 2023

SEED-Bench-2-Plus：基于多模态大型语言模型的文本丰富视觉理解基准测试

我们介绍了 SEED-Bench-2-Plus，这是一个专门设计用于评估 MLLMs 的文本丰富视觉理解的基准，通过涵盖现实世界中的三个广泛类别（图表、地图和网络），它们有效地模拟了复杂多样的文本丰富环境，并强调了当前 MLLMs 在文本丰富视觉理解方面的限制。

Apr, 2024

二进制代码摘要：ChatGPT/GPT-4 与其他大型语言模型对比评估

本研究探讨了大型语言模型 (LLMs) 在二进制代码理解中的潜力，通过引入一个包含超过 557K 个二进制函数的全面基准和数据集 BinSum，以及一种新的提示综合和优化方法，并提出了一种新的语义相似度度量方法，对 ChatGPT、GPT-4、Llama 2 和 Code Llama 等知名 LLMs 进行了广泛评估，得出了 10 个关键见解，强调了 LLMs 在该领域的变革潜力以及尚待克服的挑战。

Dec, 2023

MatPlotAgent：基于 LLM 的科学数据可视化方法和评估

本文介绍了 MatPlotAgent，一种高效的模型无关的大型语言模型（LLM）代理框架，用于自动化科学数据可视化任务，并提出了一个使用 GPT-4V 进行自动评估的评分方法，实验结果表明 MatPlotAgent 可以提高各种 LLM 的性能。

Feb, 2024

mPLUG-PaperOwl: 多模态大型语言模型的科学图解析

通过强化多模态图表分析能力，我们构建了多模态图表理解数据集 M-Paper 并引入了控制信号‘outline’，通过与先进的多模态语言模型的全面实验，证明了在我们的数据集上进行训练能够展现更强大的科学图表理解性能.

Nov, 2023