FreeEval: 大型语言模型的可靠高效评估的模块化框架

Apr, 2024

FreeEval: 大型语言模型的可靠高效评估的模块化框架

FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models

Zhuohao Yu, Chang Gao, Wenjin Yao, Yidong Wang, Zhengran Zeng...

TL;DR介绍了一个名为 FreeEval 的模块化和可扩展框架，用于可靠高效地自动评估大型语言模型，通过统一的架构整合了各种评估方法，并结合人工评估和数据污染检测等元评估技术，实现了评估结果的公平性。

Abstract

The rapid development of large language model (LLM) evaluation methodologies and datasets has led to a profound challenge: integrating state-of-the-art evaluation techniques cost-effectively while ensuring reliab

large language model evaluation methodologies unified framework automatic evaluations freeeval

发现论文，激发创造

融合评估器与 LLMs：Fusion-Eval

利用大型语言模型进行评估的新方法 “Fusion-Eval” 在 SummEval 数据集上取得了 0.96 的 Spearman 相关性，超过了其他评估方法，在 LLM 评估领域树立了新的标准。

Nov, 2023

UltraEval：一种用于 LLM 灵活全面评估的轻量级平台

UltraEval 是一个轻量级、综合、模块化和高效的用户友好的评估框架，通过重新实现模型评估的三个核心组件（模型、数据和度量），允许在统一评估工作流中自由组合不同的模型、任务、提示和度量，并支持多种模型，提供足够的推理加速。

Apr, 2024

大型语言模型是否可信用于评估？通过代理辩论对大型语言模型作为评估者进行可扩展元评估

通过多轮讨论辅助的 ScaleEval 元评估框架，充分利用多个交流能力的大语言模型代理进行可伸缩元评估，帮助人工标注员判断最有能力的大语言模型作为评估者，从而显著减轻他们的工作量。

Jan, 2024

CheckEval: 通过检查清单使用大型语言模型进行鲁棒评估框架

CheckEval 是一个使用大型语言模型的新型评估框架，通过将评估标准细分为详细的子方面，并构建每个方面的布尔问题清单，以简化评估过程中的模棱两可性和不一致性。该方法不仅使过程更具可解释性，还通过专注于特定的评估维度，显著提高了结果的健壮性和可靠性。CheckEval 在使用 SummEval 基准进行的重点案例研究中获得验证，表明与人类判断之间存在强烈的相关性，并且表现出高度一致的标注者间一致性。这些发现突显了 CheckEval 在客观、灵活和精确评估方面的有效性。通过提供可定制和交互式的框架，CheckEval 为语言模型评估树立了新的标准，回应了该领域不断发展的需求，并为未来基于语言模型的评估建立了清晰的方法。

Mar, 2024

LLM-Eval：用于大型语言模型开放域对话的统一多维自动评估

本文提出了 LLM-Eval，一种针对使用大型语言模型（LLM）的开放领域对话进行多维自动评估的统一方法。通过设计基于单个提示的评估方法来覆盖会话质量的多个方面，LLM-Eval 可以在单个模型调用中进行。我们对 LLM-Eval 在各种基准数据集上的性能进行了全面评估，表明它相对于最先进的评估方法具有高效性和适应性。同时，该分析还强调了选择适当的 LLM 和解码策略以获得准确评估结果的重要性。LMM-Eval 为评估开放领域对话系统提供了一种多功能且强大的解决方案，可以简化评估过程并在不同场景中提供一致的性能。

May, 2023

FedEval-LLM：基於集體智慧的對下游任務進行大型語言模型的聯邦評估

提出了一种名为 FedEval-LLM 的大型语言模型联邦评估框架，通过利用参与者提供的个性化语言模型，提供了一种可靠的大型语言模型在下游任务中的性能测量方式，确保了强大的隐私保护能力，解决了传统评估方法和对外部服务的依赖性的限制，是协作训练场景中语言模型评估的一种有前景的框架。

Apr, 2024

OpenFactCheck：面向 LLMs 的事实性评估统一框架

基于大型语言模型（LLMs）的事实性评估框架 OpenFactCheck，包括自定义自动事实检查器 CUSTCHECKER、多角度评估 LMM 事实性的统一评估框架 LLMEVAL 和使用人工标注数据集评估自动事实检查器验证结果可靠性的 CHECKEREVAL。

May, 2024

F-Eval: 使用精细评估方法评估基本能力

我们提出了 F-Eval，这是一个双语评估基准，旨在评估大型语言模型的基本能力，包括表达能力、常识和逻辑。我们进行了 13 个先进 LLM 的评估，结果显示我们的评估方法与其他评估者相比具有更高的相关系数和更大的区别，并讨论了不同模型大小、维度和归一化方法的影响。我们期望 F-Eval 能促进对 LLMs 基本能力的研究。

Jan, 2024

Evalverse：大规模语言模型评估的统一和可访问库

Evalverse 是一个集成多个分散评估工具为一体的新型库，通过与 Slack 等通信平台的集成，使了解人工智能知识有限的个人能够轻松请求和接收详细报告，因此，Evalverse 成为一个综合评估工具，为研究人员和从业人员提供了一个集中和易于访问的评估框架。

Apr, 2024

什么是最好的模型？用于大型语言模型的应用驱动评估

通过构建一个应用驱动的评估基准，我们提供了一种选择最佳模型的方法，并推动其应用和发展。

Jun, 2024