通过迭代实验编程实现大型多模态模型自动基准测试

Jun, 2024

通过迭代实验编程实现大型多模态模型自动基准测试

Automatic benchmarking of large multimodal models via iterative experiment programming

Alessandro Conti, Enrico Fini, Paolo Rota, Yiming Wang, Massimiliano Mancini...

TL;DR自动化实验设计的框架 APEx 可以借助大型语言模型和预先指定的工具库生成一组实验，并逐步编制科学报告，以驱动测试过程和生成自然语言的结果。

Abstract

Assessing the capabilities of large multimodal models (LMMs) often requires the creation of ad-hoc evaluations. Currently, building new benchmarks requires tremendous amounts of manual work for each specific analysis. This makes the evaluation process tedious and costly. In this paper,

large multimodal models apex automatic benchmarking language model scientific report

发现论文，激发创造

CodeApex: 大型语言模型的双语编程评估基准

CodeApex 是一个双语基准数据集，专注于评估大型语言模型（LLMs）在编程理解和代码生成能力上。数据集由三种类型的多项选择题组成，用于评估 LLMs 在编程理解任务上的能力，同时利用算法问题和相应的测试用例来评估 LLMs 生成的代码质量。通过评估包括通用和专用模型在内的 14 个先进 LLMs，发现 GPT 展现出最佳的编程能力，在两个任务上分别达到了约 50% 和 56% 的准确率。希望 CodeApex 能够作为评估 LLMs 编码能力的参考，进一步推动其发展和增长。

Sep, 2023

使用语言模型作为审核器的基础模型基准测试

本文提出了一种新的基准测试框架，Language-Model-as-an-Examiner，其中 LM 作为一个知识丰富的考官，提出问题，并以无参考的方式评估答复，以便更全面和公平地评估模型。

Jun, 2023

自动程序修复：新兴趋势对基准测试提出和暴露问题

机器学习在自动程序修复领域中广泛应用，使用神经机器翻译和大型语言模型生成软件补丁等任务，但与以往的研究存在重要差异，因此评估和比较结果必须谨慎确保其有效性和普遍性，挑战在于现有的评估基准并非针对机器学习技术设计，尤其是大型语言模型，其训练数据集通常庞大且披露不足，可能包含了其所评估的问题。

May, 2024

大型语言模型是人类水平的提示工程师

使用语言模型作自然语言指导的条件，我们提出了自动提示工程师（APE），通过搜索竞选一组精心设计的自动生成的提示中的最佳提示来优化指令来解决 NLP 任务中的性能问题，并实现对模型的更好的指导和性能提升。在 24 个任务中，通过自动产生的新指令，我们的 APE 方法可使性能提高，并在 19 个任务中的性能甚至好于人类注释者生成的指令。通过大量定性和定量分析，我们证明了 APE 的有效性。

Nov, 2022

带自然语言先验的主动示范编程

APEL 是一种基于自然语言表述的新型框架，用于间接注释可执行的含义表达式，如 SQL 程序，其中包含由群众智慧注释产生的程序候选列表和输入数据库合成方法。

May, 2022

基准自演进：一种用于动态 LLM 评估的多智能体框架

该研究提出了一个基准的自我演进框架，动态评估迅速发展的大型语言模型（LLMs）的能力和限制，实施基于多智能体系统的重构操作来构建演进实例，对 LLMs 进行更可扩展、稳健和细粒度的评估，并发现它们在多个任务上的性能普遍下降。

Feb, 2024

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

Lean4 中自动形式化的评估基准

大型语言模型 (LLMs) 具有彻底改变自动形式化的潜力。引入数学编程语言 Lean4 为评估 LLMs 的自动形式化能力提供了前所未有的机会。本文介绍了一种专为 Lean4 设计的新型评估基准，将其应用于测试包括 GPT-3.5、GPT-4 和 Gemini Pro 在内的最先进的 LLMs 的能力。我们全面的分析发现，尽管最近有所进展，这些 LLMs 在自动形式化方面仍存在局限性，尤其是在更复杂的数学领域。这些发现强调了需要进一步发展 LLMs，以充分发挥它们在科学研究和开发中的潜力。本研究不仅为当前的 LLM 能力设立了基准，还为自动形式化的未来增强奠定了基础。

Jun, 2024

LAMM: 多模态指导语言调整数据集，框架和基准测试

这篇研究将大型语言模型（MLLM）扩展到处理点云，建立了 LAMM 数据集和基准，为 MLLM 建立了可扩展的框架以适用于额外的模态，任务和领域。

Jun, 2023

SciEx：基于人工评分和自动评分的科学考试大型语言模型评测

大型语言模型的基准评估 SciEx 提出，用于评估 LLM 在解决科学任务上的能力，并通过比较 LLM 和学生在 SciEx 上的表现，提出了 LLM 作为评分者的方法。

Jun, 2024