JudgeLM：经过优化的大型语言模型是可扩展的法官

Oct, 2023

JudgeLM：经过优化的大型语言模型是可扩展的法官

JudgeLM: Fine-tuned Large Language Models are Scalable Judges

Lianghui Zhu, Xinggang Wang, Xinlong Wang

TL;DR通过对大规模语言模型进行微调以构建可扩展的评判模型，提出了一种有效评估大规模语言模型的方法，并成功应用于新的基准测试中，获得了最佳表现。

Abstract

Evaluating large language models (LLMs) in open-ended scenarios is challenging because existing benchmarks and metrics can not measure them comprehensively. To address this problem, we propose to fine-tune LLMs as scala

large language models scalable judges fine-tuning benchmark performance

发现论文，激发创造

使用 MT-Bench 和 Chatbot Arena 判断 LLM 作为法官

本研究介绍了使用强大的大型语言模型（LLM）作为评价者来评估基于 LLM 的聊天助手的方法，并引入了多个类别的评价指标。研究结果表明，LLM 评价者可以很好地匹配人类的偏好，且其评估结果与人类评估者的结果一致。

Jun, 2023

评判裁决者：评估 LLM 裁决者的一致性和脆弱性

这篇论文通过对多种语言模型作为判断者的性能进行全面研究，发现了使用 Cohen 的 kappa 作为测度对齐度的重要性，并比较了不同模型之间的判断数据；该研究发现 Llama-3 70B 和 GPT-4 Turbo 语言模型的表现优于人类，然而在排名考生模型方面，JudgeLM-7B 和词汇判断器 Contains 比人类的对齐度低多达 34 分。通过错误分析和其他研究，包括指导长度和仁慈偏见的影响，该论文为今后在判断者角色上使用语言模型提供了宝贵的经验教训。

Jun, 2024

LLM 评估中作为法官的 LLM 的经验研究：精调法官模型是任务特定的分类器

利用大型语言模型对其他语言模型进行评估的研究发现，尽管基于开源模型的精调评价模型在领域内测试集上达到了很高的准确率，甚至超过了 GPT4，但它们是任务特定的分类器，其泛化能力和公正性明显不如 GPT4。

Mar, 2024

用多元模型评估 LLM 生成：将法官替换为陪审团

使用 LLm 评估员小组 (PoLL) 替代单个大模型如 GPT4 进行评估，可以在减少评估成本的情况下，展现较少内部模型偏见，并且在三种不同的评估环境和六个不同数据集上表现更好。

Apr, 2024

MLLM 作为评判者：以视觉 - 语言基准评估多模态 MLLM

通过引入一种新的基准测试，MLLMs 作为评判者，本研究揭示了 MLLMs 在评估任务中的能力，并发现 MLLMs 在对人员喜好的评估和排名任务中存在显著差异，同时面临着多样的偏见、幻觉反应和不一致问题，强调了对 MLLMs 进一步改进和研究的迫切需求。

Feb, 2024

PandaLM：LLM 指导调优优化的自动评估基准

通过引入一种名为 PandaLM 的大型语言模型来更公平地评估大型语言模型，该模型不依赖于基于 API 的评估，能够相对简要地比对大量 GPT 系列模型的效果，从而实现了最优超参数选择的自动化、健壮和可靠评估基准的确定。

Jun, 2023

大型语言模型不是公正的评估器

本文发现了采用大型语言模型（LLMs）作为评判器来评分候选模型生成内容质量的评估范式中的系统偏差。作者提出了两种校准策略来解决这个问题。经过广泛实验，这种方法成功缓解了评估偏差，与人类判断更加接近。为了促进更加强大的大型语言模型比较的未来研究，作者将文章中的技术集成到一个易于使用的工具包 FairEval 中，同时结合了人工注释。

May, 2023

基于大型语言模型的评估器能够解决多语种评估的扩展问题吗？

通过对大型语言模型的评估，本文发现 LLM-based evaluators 在多语言评估方面可能存在偏差，并需要使用本地语言的数据集进行校准。

Sep, 2023

生成评估法官

我们提出了一个具有 13B 参数的生成式评测模型 Auto-J，通过训练用户查询和大规模真实场景下 LLM 生成的响应，以适应多样化的评估协议，包括对比评估和单一响应评估，并提供详细分析和案例研究来揭示我们方法的潜力。

Oct, 2023

对法律判决预测的大型语言模型的全面评估

研究了大型语言模型在法律领域的应用，通过设计基于大型语言模型的实用基准解决方案，并在法律判决预测任务上测试，发现类似案例和多项选择选项对大型语言模型的领域知识回忆至关重要，同时也揭示了信息检索系统在某些情况下超过了大型语言模型与信息检索系统的组合，从而使大型语言模型的角色变得多余。

Oct, 2023