TreeEval：通过树规划实现大型语言模型的无需基准测试评估

Feb, 2024

TreeEval：通过树规划实现大型语言模型的无需基准测试评估

TreeEval: Benchmark-Free Evaluation of Large Language Models through Tree Planning

Xiang Li, Yunshi Lan, Chao Yang

TL;DR通过树评估方法 (TreeEval) 对不同参数规模的 LLM 进行评估，避免了数据泄漏问题，并使用约 45 个问题与 AlpacaEval2.0 实现了最高的相关系数。

Abstract

Recently, numerous new benchmarks have been established to evaluate the performance of large language models (llms) via either computing a holistic score or employing another LLM as a judge. However, these approaches suffer from →

benchmark-free evaluation llms treeeval data leakage evaluation process

发现论文，激发创造

SciEval: 一个用于科学研究的多级大型语言模型评估基准

这篇论文提出了 SciEval 基准评估体系，以解决现有预先收集客观问题的数据泄露问题和缺乏主观问答能力评估的问题。SciEval 基于 Bloom 的认知分类学，覆盖了四个维度，系统评估科学研究能力。研究者进行了全面的实验证明，尽管 GPT-4 在与其他 LLMs 相比取得了最先进的表现，但仍有很大的改进空间，特别是在动态问题方面。数据和代码现已公开。

Aug, 2023

FreeEval: 大型语言模型的可靠高效评估的模块化框架

介绍了一个名为 FreeEval 的模块化和可扩展框架，用于可靠高效地自动评估大型语言模型，通过统一的架构整合了各种评估方法，并结合人工评估和数据污染检测等元评估技术，实现了评估结果的公平性。

Apr, 2024

tinyBenchmarks: 用较少的样例评估 LLM

通过研究 LLM 在各种关键基准测试中的表现，我们探索了减少 LLM 性能评估所需评估次数的策略，并发布了评估工具和微型基准测试，证明这些工具和测试足以可靠高效地复现原始评估结果。

Feb, 2024

LogEval：一套用于大型语言模型在日志分析领域的全面基准套件

在 AI 运维领域中，对于保证信息系统有序和稳定运行，日志分析至关重要。然而，现有大语言模型在日志分析任务中的表现尚未得到充分验证。为此，我们引入了 LogEval，这是一个综合性基准套件，旨在首次评估大语言模型在不同日志分析任务中的能力。这个基准套件包括日志解析、日志异常检测、日志故障诊断和日志摘要等任务。通过对领先的大语言模型进行严格评估，我们展示了不同大语言模型技术对日志分析性能的影响，重点关注自一致性和少样本上下文学习等方面。我们还讨论了与模型量化、中英文问答评估和提示工程相关的发现。这些发现深入了解了大语言模型在多语言环境中的优势和弱点，以及不同提示策略的有效性。通过采用不同任务的各种评估方法，准确衡量了大语言模型在日志分析中的性能，确保了全面的评估。从 LogEval 评估中获得的见解揭示了大语言模型在日志分析任务中的优势和局限性，为研究人员和从业人员提供了宝贵的指导。

Jul, 2024

从 LLM 基准混合中获得群体智慧的 MixEval

提出了一种新的评估大型语言模型的方法 MixEval，通过混合现有的基准测试以匹配来自网络的查询与现有基准测试中的相似查询，建立了有效和可靠的 LLM 评估标准，进一步构建了 MixEval-Hard，为模型改进提供了更大的空间。

Jun, 2024

S3Eval：一套针对大型语言模型的综合、可扩展、系统评估套件

使用合成任务来评估大型语言模型（LLMs）的研究方法 S3Eval，在 S3Eval 与真实世界基准测试之间存在强相关性，同时揭示了模型性能的一些深度分析和反直觉趋势。

Oct, 2023

DevEval: 评估实际软件项目中的代码生成

通过提出一个与开发者在实践项目中的经验相一致的新基准 DevEval，我们评估了五个热门的大型语言模型在代码生成方面的实际能力，揭示了它们的实际表现，并讨论了在实践项目中代码生成的挑战和未来发展方向。

Jan, 2024

TaskBench: 用于任务自动化的大型语言模型基准测试

最近，大型语言模型的不断进展引发了任务自动化的火花，其将用户指令描述的复杂任务分解为子任务，并调用外部工具执行它们，在自主代理中起着核心作用。然而，缺乏一个系统的和标准化的基准来促进 LLM 在任务自动化中的发展。为此，我们引入了 TaskBench 来评估 LLM 在任务自动化中的能力。具体而言，任务自动化可以分为三个关键阶段：任务分解，工具调用和参数预测以实现用户意图。这种复杂性使得数据收集和评估与常见的自然语言处理任务相比更具挑战性。为了生成高质量的评估数据集，我们引入了工具图的概念来表示用户意图中的分解任务，并采用反指导方法来模拟用户指令和注释。此外，我们提出了 TaskEval 来从任务分解、工具调用和参数预测等不同方面评估 LLM 的能力。实验结果表明，TaskBench 能够有效地反映 LLM 在任务自动化中的能力。借助自动化数据构建和人工验证的综合，TaskBench 相对于人工评估具有高一致性，可以作为 LLM-based 自主代理的全面而可靠的基准。

Nov, 2023

Ada-LEval：使用可调整长度基准评估长上下文语言模型

我们引入了 Ada-LEval，这是一个适用于评估 LLM 长上下文理解能力的长度可适应性基准测试，包括两个具有挑战性的子集 TSort 和 BestAnswer，通过评估 4 个最先进的闭源 API 模型和 6 个开源模型，证明了目前 LLM 在超长上下文环境中的局限性。

Apr, 2024

基于大型语言模型的评估器能够解决多语种评估的扩展问题吗？

通过对大型语言模型的评估，本文发现 LLM-based evaluators 在多语言评估方面可能存在偏差，并需要使用本地语言的数据集进行校准。

Sep, 2023