CheckEval: 通过检查清单使用大型语言模型进行鲁棒评估框架

Mar, 2024

CheckEval: 通过检查清单使用大型语言模型进行鲁棒评估框架

CheckEval: Robust Evaluation Framework using Large Language Model via Checklist

Yukyung Lee, Joonghoon Kim, Jaehee Kim, Hyowon Cho, Pilsung Kang

TL;DRCheckEval 是一个使用大型语言模型的新型评估框架，通过将评估标准细分为详细的子方面，并构建每个方面的布尔问题清单，以简化评估过程中的模棱两可性和不一致性。该方法不仅使过程更具可解释性，还通过专注于特定的评估维度，显著提高了结果的健壮性和可靠性。CheckEval 在使用 SummEval 基准进行的重点案例研究中获得验证，表明与人类判断之间存在强烈的相关性，并且表现出高度一致的标注者间一致性。这些发现突显了 CheckEval 在客观、灵活和精确评估方面的有效性。通过提供可定制和交互式的框架，CheckEval 为语言模型评估树立了新的标准，回应了该领域不断发展的需求，并为未来基于语言模型的评估建立了清晰的方法。

Abstract

We introduce checkeval, a novel evaluation framework using Large Language Models, addressing the challenges of ambiguity and →

checkeval evaluation framework ambiguity inconsistency large language models

发现论文，激发创造

FreeEval: 大型语言模型的可靠高效评估的模块化框架

介绍了一个名为 FreeEval 的模块化和可扩展框架，用于可靠高效地自动评估大型语言模型，通过统一的架构整合了各种评估方法，并结合人工评估和数据污染检测等元评估技术，实现了评估结果的公平性。

Apr, 2024

LogEval：一套用于大型语言模型在日志分析领域的全面基准套件

在 AI 运维领域中，对于保证信息系统有序和稳定运行，日志分析至关重要。然而，现有大语言模型在日志分析任务中的表现尚未得到充分验证。为此，我们引入了 LogEval，这是一个综合性基准套件，旨在首次评估大语言模型在不同日志分析任务中的能力。这个基准套件包括日志解析、日志异常检测、日志故障诊断和日志摘要等任务。通过对领先的大语言模型进行严格评估，我们展示了不同大语言模型技术对日志分析性能的影响，重点关注自一致性和少样本上下文学习等方面。我们还讨论了与模型量化、中英文问答评估和提示工程相关的发现。这些发现深入了解了大语言模型在多语言环境中的优势和弱点，以及不同提示策略的有效性。通过采用不同任务的各种评估方法，准确衡量了大语言模型在日志分析中的性能，确保了全面的评估。从 LogEval 评估中获得的见解揭示了大语言模型在日志分析任务中的优势和局限性，为研究人员和从业人员提供了宝贵的指导。

Jul, 2024

大型语言模型是否可信用于评估？通过代理辩论对大型语言模型作为评估者进行可扩展元评估

通过多轮讨论辅助的 ScaleEval 元评估框架，充分利用多个交流能力的大语言模型代理进行可伸缩元评估，帮助人工标注员判断最有能力的大语言模型作为评估者，从而显著减轻他们的工作量。

Jan, 2024

多语言清单：生成与评估

本文介绍了一种使用机器翻译自动提取目标语言的 CheckList 模板的算法，以及将其与不同水平的人工干预下创建的 CheckList 进行比较的度量方法，并探讨对印地语和其他九种语言进行 CheckList 创作的不同方法，最终得出 TEA 加上人工干预的方法最适合将基于 Checklist 的评估扩展到多种语言，并且通过 TEA 可以很好地估算模型的性能。

Mar, 2022

LLMEval：大型语言模型评估初探

最近，大型语言模型的评估已成为一个热门的研究领域。本文分析了不同评估方法，比较了各种标准和评分系统，在多个任务和测试中使用了不同的评估者和评分方法，提出了一个新的数据集 LLMEval，并对 20 个大型语言模型进行了评估，得出了 10 个结论，为将来的语言模型评估提供了一些启示。

Dec, 2023

融合评估器与 LLMs：Fusion-Eval

利用大型语言模型进行评估的新方法 “Fusion-Eval” 在 SummEval 数据集上取得了 0.96 的 Spearman 相关性，超过了其他评估方法，在 LLM 评估领域树立了新的标准。

Nov, 2023

OpenFactCheck：面向 LLMs 的事实性评估统一框架

基于大型语言模型（LLMs）的事实性评估框架 OpenFactCheck，包括自定义自动事实检查器 CUSTCHECKER、多角度评估 LMM 事实性的统一评估框架 LLMEVAL 和使用人工标注数据集评估自动事实检查器验证结果可靠性的 CHECKEREVAL。

May, 2024

SciEval: 一个用于科学研究的多级大型语言模型评估基准

这篇论文提出了 SciEval 基准评估体系，以解决现有预先收集客观问题的数据泄露问题和缺乏主观问答能力评估的问题。SciEval 基于 Bloom 的认知分类学，覆盖了四个维度，系统评估科学研究能力。研究者进行了全面的实验证明，尽管 GPT-4 在与其他 LLMs 相比取得了最先进的表现，但仍有很大的改进空间，特别是在动态问题方面。数据和代码现已公开。

Aug, 2023

大规模语言模型在自动评估中的深入研究

使用大型语言模型（LLMs）评估文本质量近来变得流行。本文分析了 LLM 评估（Chiang 和 Lee，2023）和 G-Eval（Liu et al.，2023），讨论了评估过程中的细节如何改变 LLMs 给出的评分与人类评分的相关性。我们发现 G-Eval 中使用的自动思维链（CoT）并不总是使 G-Eval 与人类评分更加一致。我们还表明，强制 LLM 仅输出数字评分，如 G-Eval 中所示，是不理想的。最后，我们揭示出要求 LLM 解释其自身评分会持续改善 ChatGPT 与人类评分之间的相关性，并在两个元评估数据集上推动了最新技术的相关性。

Oct, 2023

什么是最好的模型？用于大型语言模型的应用驱动评估

通过构建一个应用驱动的评估基准，我们提供了一种选择最佳模型的方法，并推动其应用和发展。

Jun, 2024