LLMeBench：一款加速 LLM 基准测试的灵活框架

Aug, 2023

LLMeBench：一款加速 LLM 基准测试的灵活框架

LLMeBench: A Flexible Framework for Accelerating LLMs Benchmarking

Fahim Dalvi, Maram Hasanain, Sabri Boughorbel, Basel Mousi, Samir Abdaljalil...

TL;DR近期大型语言模型（LLMs）的发展和成功需要对其在不同语言的各种 NLP 任务中的性能进行评估。本研究介绍了 LLMeBench 框架，该框架最初是为了使用 OpenAI 的 GPT 和 BLOOM 模型评估阿拉伯语 NLP 任务而开发的，但它可以轻松地定制任何 NLP 任务和模型，无论语言如何。该框架还具有零样本学习和少样本学习的设置。用户可以在不到 10 分钟的时间内添加新的自定义数据集，并使用自己的模型 API 密钥评估所需的任务。该框架已经在 31 个独特的 NLP 任务中进行了测试，涉及 53 个公开可用的数据集和大约 296K 个数据点的 90 个实验设置。我们计划将该框架开源给社区。在线上有演示视频供观看。

Abstract

The recent development and success of large language models (llms) necessitate an evaluation of their performance across diverse

large language models llms evaluation llmebench framework nlp tasks

发现论文，激发创造

ML-Bench：大型语言模型基于开源库进行机器学习任务

通过使用开源库完成机器学习任务，本文旨在提出一种新的评估设置，以评估大型语言模型（LLMs）在实际编程中的适用性，并介绍了 ML-Bench 和 ML-Agent 两个工具，用于评估 LLMs 在利用开源函数时的有效性。

Nov, 2023

clembench-2024: 作为多动作代理的挑战性、动态、互补、多语言基准测试和底层灵活框架

利用大型语言模型自我对弈进行对话游戏的研究，旨在探索其普适性、评估模型的性能，并研究提示语言对模型表现的影响。该研究为构建应用交互系统的模型选择提供了基础，或最终建立模型和模拟评估器的闭环开发环境。

May, 2024

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

LawBench：大型语言模型法律知识基准评估

大型语言模型在法律领域的能力评估中，提出了全面评估基准 LawBench，并经过广泛测试发现 GPT-4 是在法律领域表现最好的模型，但还有很大提升空间。

Sep, 2023

SCALE：高级语言模型评估复杂度的扩展

该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试，包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战，该基准测试可以用于测试和推广最先进的 LLMs 模型。

Jun, 2023

MEGAVERSE：跨语言、跨模态、跨模型和跨任务进行大型语言模型基准测试

通过评估 GPT-4 和 PaLM2 在 MEGAVERSE 数据集上的表现，研究发现这两个模型在多个任务上超过了 Llama 模型，尤其是在资源稀缺的语言中，其中 GPT-4 在更多的数据集上优于 PaLM2。然而，为了准确评估非英语语言上 LLM 的性能，我们需要解决数据污染等问题。

Nov, 2023

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

NLPBench：评估大型语言模型在解决 NLP 问题上的能力

通过独特的基准数据集 NLPBench，评估了大型语言模型在自然语言处理中的问题解决能力，并发现高级提示策略的有效性不稳定，对 LLMs 性能有时造成损害，尤其是较小的模型 LLAMA-2（13 亿参数）中表现更明显；同时发现大型语言模型在科学问题解决能力方面存在特定的不足，逻辑分解和推理的薄弱性明显影响结果。

Sep, 2023

开发一个可扩展的基准测试，用于评估大型语言模型在知识图谱工程中的表现

大型语言模型在知识图谱工程方面的性能评估和监控是一个重要问题，我们引入了一个基于知识图谱工程的基准评测框架，涵盖了语法和纠错、事实抽取以及数据集生成三个挑战。通过实验证明，尽管具有一定的实用性，大型语言模型在零样本生成知识图谱方面尚不适用。因此，我们的 LLM-KG-Bench 框架提供了 LLM 响应的自动评估和存储机制，以及统计数据和可视化工具，以支持指导数据和模型性能的追踪。

Aug, 2023

DevBench：软件开发综合基准

最近的大型语言模型 (LLMs) 的进展显著增强了它们的编码能力。然而，现有的基准主要关注编程的简化或隔离方面，如单文件代码生成或存储库问题调试，无法全面衡量真实世界编程活动引发的各种挑战。为此，我们提出了 DevBench，这是一个全面的基准，评估 LLMs 在软件开发生命周期的各个阶段，包括软件设计、环境设置、实施、验收测试和单元测试。DevBench 涵盖了广泛的编程语言和领域，具备高质量的数据收集，并为每个任务设计和验证了仔细设计的指标。经验证实证研究表明，包括 GPT-4-Turbo 在内的当前 LLMs 未能解决 DevBench 中提出的挑战。分析显示，模型在理解存储库中的复杂结构、管理编译过程和掌握高级编程概念方面存在困难。我们的发现为未来 LLMs 的真实世界编程应用的发展提供了可行的洞察。我们的基准可以在此 https URL 获取。

Mar, 2024