大型语言模型不是公正的评估器

May, 2023

Large Language Models are not Fair Evaluators

Peiyi Wang, Lei Li, Liang Chen, Dawei Zhu, Binghuai Lin...

TL;DR本文发现了采用大型语言模型（LLMs）作为评判器来评分候选模型生成内容质量的评估范式中的系统偏差。作者提出了两种校准策略来解决这个问题。经过广泛实验，这种方法成功缓解了评估偏差，与人类判断更加接近。为了促进更加强大的大型语言模型比较的未来研究，作者将文章中的技术集成到一个易于使用的工具包 FairEval 中，同时结合了人工注释。

Abstract

We uncover a systematic bias in the evaluation paradigm of adopting large language models~(LLMs), e.g., GPT-4, as a referee to score the quality of responses generated by candidate models. We find that the quality ranking of candidate responses can be easily hacked by simply altering their order of appearance in the context. This manipulation allows us to sk

large language models evaluation bias calibration strategies human judgments faireval

发现论文，激发创造

大型语言模型的评估存在不一致和偏见

本研究通过使用 SummEval 数据集进行一系列分析，证实了大型语言模型作为评估器在以下方面存在偏见和不一致性：（1）体现对低困惑度文本的偏好；（2）显示具有偏见的评分分布；（3）经历多属性判断时的锚定效应。此外，我们分享了配置大型语言模型评估器以减轻这些限制的方法，通过 RoSE 数据集的实验证明了与最先进的大型语言模型评估器相比的改进。

May, 2024

辩论评估中大型语言模型的实证分析

使用 GPT-3.5 和 GPT-4 等高级大型语言模型对辩论评估进行研究，发现 LLMs 在评估上的表现超过人类，并超过基于大量数据集微调的最先进方法。同时，研究了 LLMs 中存在的偏见，包括位置偏见、词汇偏见和顺序偏见，这可能会影响它们的评价判断。我们的发现表明，无论是 GPT-3.5 还是 GPT-4 都存在一致偏向于第二个候选回答的偏见，这归因于提示设计。此外，在 GPT-3.5 和 GPT-4 中也存在词汇偏见，特别是当含义具有数字或顺序的标签集时，强调在提示设计中需谨慎选择标签的表述。此外，我们的分析表明，这两个模型倾向于认为辩论的结束方是获胜方，暗示存在讨论末尾的偏见。

May, 2024

基于大型语言模型的评估器能够解决多语种评估的扩展问题吗？

通过对大型语言模型的评估，本文发现 LLM-based evaluators 在多语言评估方面可能存在偏差，并需要使用本地语言的数据集进行校准。

Sep, 2023

形式胜于内容：大型语言模型的评估偏见

在评估自然语言生成的过程中，使用大型语言模型 (LLMs) 作为人类评判的替代方法是一种最新的趋势。然而，本研究发现其评估结果存在偏见。为解决这一问题，提出了多维度独立评估系统 (Multi-Elo Rating System)，在提高 LLM 评估质量方面取得了显著成效，但对众包评估没有明显改善，需要进一步探索和改进。

Jul, 2023

校准基于 LLM 的评估器

自动校准基于大语言模型的评估器以提高与人类评估的相关性。

Sep, 2023

大型语言模型能否替代人类评估？

本文介绍了使用大型语言模型（LLM）代替人类评估来评估人工智能生成的文本的潜力，探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果，并发现 LLM 评估结果与人类专家的评估结果保持一致。

May, 2023

评估指标在 GPT-4 时代：可靠评估大型序列到序列任务上的语言模型

通过自动和人工评估，我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估，发现 ChatGPT 在大多数指标上始终优于其他流行模型，而使用经典的自动评估指标时，得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多，表明许多流行基准的质量较低。最后，我们发现 GPT-4 能够在特定任务的变异性较小的情况下，对模型输出进行排名，与人类判断趋于一致，但在语法错误纠正任务中的排名一致性较低。

Oct, 2023

大规模语言模型在自动评估中的深入研究

使用大型语言模型（LLMs）评估文本质量近来变得流行。本文分析了 LLM 评估（Chiang 和 Lee，2023）和 G-Eval（Liu et al.，2023），讨论了评估过程中的细节如何改变 LLMs 给出的评分与人类评分的相关性。我们发现 G-Eval 中使用的自动思维链（CoT）并不总是使 G-Eval 与人类评分更加一致。我们还表明，强制 LLM 仅输出数字评分，如 G-Eval 中所示，是不理想的。最后，我们揭示出要求 LLM 解释其自身评分会持续改善 ChatGPT 与人类评分之间的相关性，并在两个元评估数据集上推动了最新技术的相关性。

Oct, 2023

PRE: 基于同行评审的大型语言模型评估器

通过同行评审机制，我们提出了一种能够自动评估大型语言模型的新框架，用于解决评估成本高、泛化能力低以及评估中的偏见等问题。我们在文本摘要任务上进行了广泛实验，结果表明使用单一语言模型评估存在偏见，并证明了我们的同行评审机制的有效性。

Jan, 2024

METAL：面向多语言元评估

我们提出了一个针对多语言情景下 LLMs 作为评估器的端到端评估框架，并创建了一个用于评估 LLM-based 评估器的精心策划的数据集，该数据集覆盖 10 种语言，包含本族语言者对摘要任务的判断。我们比较了基于 GPT-3.5-Turbo、GPT-4 和 PaLM2 创建的 LLM-based 评估器的性能，结果表明，基于 GPT-4 的 LLM-based 评估器在各种语言中表现最好，而 GPT-3.5-Turbo 的表现不佳。此外，我们对 LLM-based 评估器提供的推理进行分析，发现它往往与人类评判所提供的推理不一致。

Apr, 2024