人类还是 LLM 作为法官？对判断偏见的研究

Feb, 2024

人类还是 LLM 作为法官？对判断偏见的研究

Humans or LLMs as the Judge? A Study on Judgement Biases

Guiming Hardy Chen, Shunian Chen, Ziche Liu, Feng Jiang, Benyou Wang

TL;DR采用人类和大型语言模型作为评判者（即人类和 LLM 评判者）来评估现有 LLM 的性能已经引起了关注。然而，这种方法同时引入了人类和 LLM 评判者的潜在偏见，对评估结果的可靠性提出了质疑。本文提出了一种针对 LLM 和人类评判者的 5 种偏见的新框架。我们整理了一个包含 142 个样本的数据集，涉及修订后的布鲁姆分类法，并进行了数千次人类和 LLM 评估。结果表明，人类和 LLM 评判者在不同程度上都容易受到扰动，并且即使是最先进的评判者也存在相当大的偏见。我们进一步利用它们的弱点对 LLM 评判者进行了攻击。我们希望我们的工作能让社区意识到人类和 LLM 评判者在面对扰动时的脆弱性，以及开发健壮评估系统的紧迫性。

Abstract

Adopting human and large language models (LLM) as judges (\textit{a.k.a} human- and LLM-as-a-judge) for evaluating the performance of existing LLMs has recently gained attention. Nonetheless, this approach concurrently introduces potential →

human and large language models biases evaluation results bloom's taxonomy evaluation systems

发现论文，激发创造

评判裁决者：评估 LLM 裁决者的一致性和脆弱性

这篇论文通过对多种语言模型作为判断者的性能进行全面研究，发现了使用 Cohen 的 kappa 作为测度对齐度的重要性，并比较了不同模型之间的判断数据；该研究发现 Llama-3 70B 和 GPT-4 Turbo 语言模型的表现优于人类，然而在排名考生模型方面，JudgeLM-7B 和词汇判断器 Contains 比人类的对齐度低多达 34 分。通过错误分析和其他研究，包括指导长度和仁慈偏见的影响，该论文为今后在判断者角色上使用语言模型提供了宝贵的经验教训。

Jun, 2024

LLM 是否可以成为个性化的法官？

基于个性化评判的高可信度大型语言模型在评估上提供了更可靠和可扩展的方法，并显示出与人类判断相当甚至超出人类在高可信度样本上的表现。

Jun, 2024

用大型经验研究代替人类法官？跨 20 个 NLP 评估任务

评估 NLP 模型时，使用 LLM-generated 判断取而代之人为判断的趋势日益增长。我们提供了一个由人工注释的 20 个 NLP 数据集的 JUDGE-BENCH，并对 11 个当前的 LLM 进行全面评估，涵盖公开权重和专有模型，以验证其模拟注释的能力。我们的评估结果表明，每个 LLM 在与人工判断的相关性方面在不同数据集上存在很大的差异。我们得出结论，LLM 尚不具备系统替代 NLP 中的人类评审员的能力。

Jun, 2024

使用 MT-Bench 和 Chatbot Arena 判断 LLM 作为法官

本研究介绍了使用强大的大型语言模型（LLM）作为评价者来评估基于 LLM 的聊天助手的方法，并引入了多个类别的评价指标。研究结果表明，LLM 评价者可以很好地匹配人类的偏好，且其评估结果与人类评估者的结果一致。

Jun, 2023

MLLM 作为评判者：以视觉 - 语言基准评估多模态 MLLM

通过引入一种新的基准测试，MLLMs 作为评判者，本研究揭示了 MLLMs 在评估任务中的能力，并发现 MLLMs 在对人员喜好的评估和排名任务中存在显著差异，同时面临着多样的偏见、幻觉反应和不一致问题，强调了对 MLLMs 进一步改进和研究的迫切需求。

Feb, 2024

LLM 是否表现出类似于人类的回答偏向？一项调查设计案例研究

大型语言模型在代表人类进行主观标签任务方面的潜力和限制

Nov, 2023

形式胜于内容：大型语言模型的评估偏见

在评估自然语言生成的过程中，使用大型语言模型 (LLMs) 作为人类评判的替代方法是一种最新的趋势。然而，本研究发现其评估结果存在偏见。为解决这一问题，提出了多维度独立评估系统 (Multi-Elo Rating System)，在提高 LLM 评估质量方面取得了显著成效，但对众包评估没有明显改善，需要进一步探索和改进。

Jul, 2023

LLM 评估中作为法官的 LLM 的经验研究：精调法官模型是任务特定的分类器

利用大型语言模型对其他语言模型进行评估的研究发现，尽管基于开源模型的精调评价模型在领域内测试集上达到了很高的准确率，甚至超过了 GPT4，但它们是任务特定的分类器，其泛化能力和公正性明显不如 GPT4。

Mar, 2024

LLMs 的高风险决策中的认知偏差

我们介绍了 BiasBuster，这是一个旨在发现、评估和减轻大型语言模型中认知偏见的框架。通过在心理学和认知科学的前期研究基础上开发了一个包含 16,800 个提示的数据集，我们测试了各种减轻偏见的策略，并提出了一种使用大型语言模型来去偏置其自身提示的新方法。我们的分析提供了商业和开源模型中认知偏见存在及其影响的全面图片。我们证明了我们的自助去偏置方法能够有效减轻认知偏见，而无需为每种偏见类型手动制作示例。

Feb, 2024

用多元模型评估 LLM 生成：将法官替换为陪审团

使用 LLm 评估员小组 (PoLL) 替代单个大模型如 GPT4 进行评估，可以在减少评估成本的情况下，展现较少内部模型偏见，并且在三种不同的评估环境和六个不同数据集上表现更好。

Apr, 2024