参考引导判决：大语言模型在自由文本自动评估中的应用

Aug, 2024

参考引导判决：大语言模型在自由文本自动评估中的应用

Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text

Sher Badshah, Hassan Sajjad

TL;DR本研究解决了当前开放式任务评估方法不足的问题，提出了一种参考引导判决方法，利用多个大语言模型作为评审者自动评估生成文本。实验表明，该方法显著提高了评估的可靠性和准确性，并与人类评估结果相关性强，成为传统指标和人类判断的有效替代方案。

Abstract

The emergence of Large Language Models (LLMs) as chat assistants capable of generating human-like conversations has amplified the need for robust evaluation methods, particularly for Open-Ended Tasks. Conventiona

发现论文，激发创造

大型语言模型能否替代人类评估？

本文介绍了使用大型语言模型（LLM）代替人类评估来评估人工智能生成的文本的潜力，探索了LLM对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果，并发现LLM评估结果与人类专家的评估结果保持一致。

May, 2023

LLM-Eval：用于大型语言模型开放域对话的统一多维自动评估

本文提出了LLM-Eval，一种针对使用大型语言模型（LLM）的开放领域对话进行多维自动评估的统一方法。通过设计基于单个提示的评估方法来覆盖会话质量的多个方面，LLM-Eval可以在单个模型调用中进行。我们对LLM-Eval在各种基准数据集上的性能进行了全面评估，表明它相对于最先进的评估方法具有高效性和适应性。同时，该分析还强调了选择适当的LLM和解码策略以获得准确评估结果的重要性。LMM-Eval为评估开放领域对话系统提供了一种多功能且强大的解决方案，可以简化评估过程并在不同场景中提供一致的性能。

May, 2023

使用 MT-Bench 和 Chatbot Arena 判断 LLM 作为法官

本研究介绍了使用强大的大型语言模型（LLM）作为评价者来评估基于LLM的聊天助手的方法，并引入了多个类别的评价指标。研究结果表明，LLM评价者可以很好地匹配人类的偏好，且其评估结果与人类评估者的结果一致。

Jun, 2023

ChatEval：基于多智能体辩论的LLM评估器改进

通过多代理辩论框架，构建了一个名为ChatEval的多代理裁判团队，用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量，分析结果表明ChatEval不仅仅提供文本评分，还提供了模拟人类评估过程以进行可靠评估。

Aug, 2023

大型语言模型是否可信用于评估？通过代理辩论对大型语言模型作为评估者进行可扩展元评估

通过多轮讨论辅助的 ScaleEval 元评估框架，充分利用多个交流能力的大语言模型代理进行可伸缩元评估，帮助人工标注员判断最有能力的大语言模型作为评估者，从而显著减轻他们的工作量。

Jan, 2024

人类还是LLM作为法官？对判断偏见的研究

采用人类和大型语言模型作为评判者（即人类和LLM评判者）来评估现有LLM的性能已经引起了关注。然而，这种方法同时引入了人类和LLM评判者的潜在偏见，对评估结果的可靠性提出了质疑。本文提出了一种针对LLM和人类评判者的5种偏见的新框架。我们整理了一个包含142个样本的数据集，涉及修订后的布鲁姆分类法，并进行了数千次人类和LLM评估。结果表明，人类和LLM评判者在不同程度上都容易受到扰动，并且即使是最先进的评判者也存在相当大的偏见。我们进一步利用它们的弱点对LLM评判者进行了攻击。我们希望我们的工作能让社区意识到人类和LLM评判者在面对扰动时的脆弱性，以及开发健壮评估系统的紧迫性。

Feb, 2024

评判裁决者：评估LLM裁决者的一致性和脆弱性

这篇论文通过对多种语言模型作为判断者的性能进行全面研究，发现了使用Cohen的kappa作为测度对齐度的重要性，并比较了不同模型之间的判断数据；该研究发现Llama-3 70B和GPT-4 Turbo语言模型的表现优于人类，然而在排名考生模型方面，JudgeLM-7B和词汇判断器Contains比人类的对齐度低多达34分。通过错误分析和其他研究，包括指导长度和仁慈偏见的影响，该论文为今后在判断者角色上使用语言模型提供了宝贵的经验教训。

Jun, 2024

用大型经验研究代替人类法官？跨20个NLP评估任务

评估NLP模型时，使用LLM-generated判断取而代之人为判断的趋势日益增长。我们提供了一个由人工注释的20个NLP数据集的JUDGE-BENCH，并对11个当前的LLM进行全面评估，涵盖公开权重和专有模型，以验证其模拟注释的能力。我们的评估结果表明，每个LLM在与人工判断的相关性方面在不同数据集上存在很大的差异。我们得出结论，LLM尚不具备系统替代NLP中的人类评审员的能力。

Jun, 2024

参考引导裁决：大型语言模型在自由形式文本自动评估中的应用

本研究解决了传统评估指标在评估大型语言模型生成的自由形式文本时存在的局限性。我们提出了一种参考引导裁决的方法，通过多种大型语言模型作为评审进行更可靠的评估，显著提高了与人类判断的一致性。实验结果表明，该方法有效且可扩展，为生成式人工智能的自动评估提供了新思路。

Aug, 2024

从计算到裁决：考察大语言模型在数学推理任务中的表现

本研究探讨了大语言模型（LLMs）作为数学推理任务的判断者，填补了这一领域的研究空白。研究发现，LLMs在提升任务表现方面效果有限，但能够识别更优模型，且判断与模型表现之间存在明显相关性。这一发现为评估和利用LLMs提供了新的统计分析视角。

Sep, 2024