分解和聚合：一种逐步解释的评估框架

May, 2024

分解和聚合：一种逐步解释的评估框架

Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework

Minzhi Li, Zhengyuan Liu, Shumin Deng, Shafiq Joty, Nancy F. Chen...

TL;DRLarge Language Models 的元评估问题是如何可靠地评估生成文本的一个关键研究问题。为了解决这一挑战，提出了 Decompose and Aggregate 方法，将评估过程分解为不同阶段，从而提供了更可解释的界面，并在多个元评估基准上实现了多种 Large Language Models 的评估性能提升高达 39.6%。

Abstract

The acceleration of large language models (LLMs) research has opened up new possibilities for evaluating generated texts. They serve as scalable and economical evaluators, but the question of how reliable these e

large language models evaluating generated texts meta-evaluation interpretability decompose and aggregate

发现论文，激发创造

大型语言模型是否可信用于评估？通过代理辩论对大型语言模型作为评估者进行可扩展元评估

通过多轮讨论辅助的 ScaleEval 元评估框架，充分利用多个交流能力的大语言模型代理进行可伸缩元评估，帮助人工标注员判断最有能力的大语言模型作为评估者，从而显著减轻他们的工作量。

Jan, 2024

DecompEval：以无监督分解的问答方式评估生成文本

本文提出了一种简单而有效的度量方法 DecompEval，该方法在自然语言生成（NLG）评估中使用了指令调整的预训练语言模型，以提高其泛化能力和可解释性。实验结果表明，DecompEval 在未训练的度量标准中取得了最先进的性能，适用于评估文本摘要和对话生成的各种任务和评估维度，并具有较强的泛化能力和可解释性。

Jul, 2023

METAL：面向多语言元评估

我们提出了一个针对多语言情景下 LLMs 作为评估器的端到端评估框架，并创建了一个用于评估 LLM-based 评估器的精心策划的数据集，该数据集覆盖 10 种语言，包含本族语言者对摘要任务的判断。我们比较了基于 GPT-3.5-Turbo、GPT-4 和 PaLM2 创建的 LLM-based 评估器的性能，结果表明，基于 GPT-4 的 LLM-based 评估器在各种语言中表现最好，而 GPT-3.5-Turbo 的表现不佳。此外，我们对 LLM-based 评估器提供的推理进行分析，发现它往往与人类评判所提供的推理不一致。

Apr, 2024

PRE: 基于同行评审的大型语言模型评估器

通过同行评审机制，我们提出了一种能够自动评估大型语言模型的新框架，用于解决评估成本高、泛化能力低以及评估中的偏见等问题。我们在文本摘要任务上进行了广泛实验，结果表明使用单一语言模型评估存在偏见，并证明了我们的同行评审机制的有效性。

Jan, 2024

通过辩论评估大型语言模型的性能

基于辩论的自动化基准评估框架可有效评估和比较大型语言模型（LLMs）的性能，同时消除了依赖人类群体的昂贵需求。

Jun, 2024

HD-Eval: 通过分层准则分解对齐大型语言模型评估器

通过将任务分解为更细粒度的评估标准，然后根据人类偏好进行聚合和修剪，HD-Eval 框架提供了一种改进 LLM 评估器对人类喜好的对齐的方法，并在多个层次上全面捕捉自然语言的方面。

Feb, 2024

大型语言模型作为推荐解释的评估器

使用 LLMs 作为评估者能够提供准确、可重复和经济高效的解决方案，用于评估推荐解释文本的质量。

Jun, 2024

大型语言模型是否适合作为抽象概括的评估器？

本文旨在探讨使用 LLMS（例如 “gpt-3.5-turbo”）作为自动评估器来评估摘要的性能，并比较了不同的评估方法和提示格式对其评估能力的影响。作者建议哪些提示格式可以提高 LLM 的性能，并讨论了 LLM 的评估能力随摘要质量和评估维度的变化。

May, 2023

基于大型语言模型的评估器能够解决多语种评估的扩展问题吗？

通过对大型语言模型的评估，本文发现 LLM-based evaluators 在多语言评估方面可能存在偏差，并需要使用本地语言的数据集进行校准。

Sep, 2023

融合评估器与 LLMs：Fusion-Eval

利用大型语言模型进行评估的新方法 “Fusion-Eval” 在 SummEval 数据集上取得了 0.96 的 Spearman 相关性，超过了其他评估方法，在 LLM 评估领域树立了新的标准。

Nov, 2023