评判裁决者：评估 LLM 裁决者的一致性和脆弱性

Jun, 2024

评判裁决者：评估 LLM 裁决者的一致性和脆弱性

Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges

Aman Singh Thakur, Kartik Choudhary, Venkat Srinik Ramayapally, Sankaran Vaidyanathan, Dieuwke Hupkes

TL;DR这篇论文通过对多种语言模型作为判断者的性能进行全面研究，发现了使用 Cohen 的 kappa 作为测度对齐度的重要性，并比较了不同模型之间的判断数据；该研究发现 Llama-3 70B 和 GPT-4 Turbo 语言模型的表现优于人类，然而在排名考生模型方面，JudgeLM-7B 和词汇判断器 Contains 比人类的对齐度低多达 34 分。通过错误分析和其他研究，包括指导长度和仁慈偏见的影响，该论文为今后在判断者角色上使用语言模型提供了宝贵的经验教训。

Abstract

Offering a promising solution to the scalability challenges associated with human evaluation, the llm-as-a-judge paradigm is rapidly gaining traction as an approach to evaluating large language models (LLMs). How

llm-as-a-judge paradigm scability challenges language models judge models alignment

发现论文，激发创造

人类还是 LLM 作为法官？对判断偏见的研究

采用人类和大型语言模型作为评判者（即人类和 LLM 评判者）来评估现有 LLM 的性能已经引起了关注。然而，这种方法同时引入了人类和 LLM 评判者的潜在偏见，对评估结果的可靠性提出了质疑。本文提出了一种针对 LLM 和人类评判者的 5 种偏见的新框架。我们整理了一个包含 142 个样本的数据集，涉及修订后的布鲁姆分类法，并进行了数千次人类和 LLM 评估。结果表明，人类和 LLM 评判者在不同程度上都容易受到扰动，并且即使是最先进的评判者也存在相当大的偏见。我们进一步利用它们的弱点对 LLM 评判者进行了攻击。我们希望我们的工作能让社区意识到人类和 LLM 评判者在面对扰动时的脆弱性，以及开发健壮评估系统的紧迫性。

Feb, 2024

使用 MT-Bench 和 Chatbot Arena 判断 LLM 作为法官

本研究介绍了使用强大的大型语言模型（LLM）作为评价者来评估基于 LLM 的聊天助手的方法，并引入了多个类别的评价指标。研究结果表明，LLM 评价者可以很好地匹配人类的偏好，且其评估结果与人类评估者的结果一致。

Jun, 2023

LLM 是否可以成为个性化的法官？

基于个性化评判的高可信度大型语言模型在评估上提供了更可靠和可扩展的方法，并显示出与人类判断相当甚至超出人类在高可信度样本上的表现。

Jun, 2024

JudgeLM：经过优化的大型语言模型是可扩展的法官

通过对大规模语言模型进行微调以构建可扩展的评判模型，提出了一种有效评估大规模语言模型的方法，并成功应用于新的基准测试中，获得了最佳表现。

Oct, 2023

用多元模型评估 LLM 生成：将法官替换为陪审团

使用 LLm 评估员小组 (PoLL) 替代单个大模型如 GPT4 进行评估，可以在减少评估成本的情况下，展现较少内部模型偏见，并且在三种不同的评估环境和六个不同数据集上表现更好。

Apr, 2024

MLLM 作为评判者：以视觉 - 语言基准评估多模态 MLLM

通过引入一种新的基准测试，MLLMs 作为评判者，本研究揭示了 MLLMs 在评估任务中的能力，并发现 MLLMs 在对人员喜好的评估和排名任务中存在显著差异，同时面临着多样的偏见、幻觉反应和不一致问题，强调了对 MLLMs 进一步改进和研究的迫切需求。

Feb, 2024

用大型经验研究代替人类法官？跨 20 个 NLP 评估任务

评估 NLP 模型时，使用 LLM-generated 判断取而代之人为判断的趋势日益增长。我们提供了一个由人工注释的 20 个 NLP 数据集的 JUDGE-BENCH，并对 11 个当前的 LLM 进行全面评估，涵盖公开权重和专有模型，以验证其模拟注释的能力。我们的评估结果表明，每个 LLM 在与人工判断的相关性方面在不同数据集上存在很大的差异。我们得出结论，LLM 尚不具备系统替代 NLP 中的人类评审员的能力。

Jun, 2024

法官的判断：对 LLMs 中两两比较评估的位置偏见的系统调查

LLM-as-a-Judge 存在固有的偏见，特别是位置偏见，这项研究使用一种框架来系统研究和量化位置偏见，并通过评估实现验证，发现不同评委和任务之间的偏见存在显著差异。研究为评估提供了多维度的框架，指导评委模型的选择，并为未来的研究提供了基础，以实现去偏见策略并提高 LLM 评估器的可靠性。

Jun, 2024

LLM 评估中作为法官的 LLM 的经验研究：精调法官模型是任务特定的分类器

利用大型语言模型对其他语言模型进行评估的研究发现，尽管基于开源模型的精调评价模型在领域内测试集上达到了很高的准确率，甚至超过了 GPT4，但它们是任务特定的分类器，其泛化能力和公正性明显不如 GPT4。

Mar, 2024

LLM 作为法官是否稳健？对零样本 LLM 评估进行普适对抗攻击研究

LLM 评估器的脆弱性以及连接攻击的影响对于高风险实际场景的部署提出了重要的关注和需求。

Feb, 2024