谁来验证验证者？使 LLM 辅助评估 LLM 输出与人类偏好保持一致

Apr, 2024

谁来验证验证者？使 LLM 辅助评估 LLM 输出与人类偏好保持一致

Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences

Shreya Shankar, J.D. Zamfirescu-Pereira, Björn Hartmann, Aditya G. Parameswaran, Ian Arawjo

TL;DR通过混合主动的方式，我们提出了 EvalGen 接口，用于 “验证验证器”，通过与人类需求对齐以改善与 LLM 生成评估函数（提示或代码）相关的问题。研究发现了一种现象，称为‘criteria drift’，用户需要通过对输出进行评分来定义评分标准，但评分输出帮助用户界定标准，而某些标准与特定 LLM 输出相关，这引发了对假设评估与模型输出的独立性的严重问题。我们展示了接口和实施细节，与基准方法进行比较，并对未来 LLM 评估助手的设计提出了建议。

Abstract

Due to the cumbersome nature of human evaluation and limitations of code-based evaluation, large language models (LLMs) are increasingly being used to assist humans in evaluating LLM outputs. Yet →

large language models human evaluation llm-generated evaluators mixed-initiative approach criteria drift

发现论文，激发创造

校准基于 LLM 的评估器

自动校准基于大语言模型的评估器以提高与人类评估的相关性。

Sep, 2023

EvalLM: 大型语言模型提示的交互式评估及用户定义准则

通过评估多个用户定义的标准，使用自然语言描述系统的评估器提供的反馈，从而使开发人员能够通过迭代改进引导语。与手动评估相比，EvalLM 有助于参与者构建更多样化的标准，检查两倍数量的输出，并在减少 59% 的修订次数后获得令人满意的引导语。该研究可扩展到模型评估和特定应用环境中的对齐。

Sep, 2023

合作评估：探索大型语言模型与人类在开放式生成评估中的协同作用

为了解决开放式自然语言生成任务中评估标准不一致的挑战，我们提出了一种协同评估流程 CoEval，涉及特定任务标准的清单设计和文本的详细评估，其中大型语言模型生成初步的构思，而人类进行审查，结果显示，通过利用大型语言模型，CoEval 能够高效地评估长文本，节省时间并减少人类评估的异常值，人类审查仍然起着重要作用，以最终确保可靠性。

Oct, 2023

RealHumanEval: 评估大型语言模型对程序员的支持能力

通过使用 RealHumanEval、静态基准以及优先度度量，研究了大型语言模型（LLMs）在代码编写中的效能表现以及对程序员生产力的影响。发现优化的基准性能可以提高程序员的生产力，但基准性能与人类表现之间的差距并不成比例，同时程序员的偏好与实际表现并无关联，这促使我们需要更好、以人为中心的评估指标。同时，我们公开了 RealHumanEval 工具和研究数据以促进代码模型的改进。

Apr, 2024

形式胜于内容：大型语言模型的评估偏见

在评估自然语言生成的过程中，使用大型语言模型 (LLMs) 作为人类评判的替代方法是一种最新的趋势。然而，本研究发现其评估结果存在偏见。为解决这一问题，提出了多维度独立评估系统 (Multi-Elo Rating System)，在提高 LLM 评估质量方面取得了显著成效，但对众包评估没有明显改善，需要进一步探索和改进。

Jul, 2023

大型语言模型能否替代人类评估？

本文介绍了使用大型语言模型（LLM）代替人类评估来评估人工智能生成的文本的潜力，探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果，并发现 LLM 评估结果与人类专家的评估结果保持一致。

May, 2023

大规模语言模型在自动评估中的深入研究

使用大型语言模型（LLMs）评估文本质量近来变得流行。本文分析了 LLM 评估（Chiang 和 Lee，2023）和 G-Eval（Liu et al.，2023），讨论了评估过程中的细节如何改变 LLMs 给出的评分与人类评分的相关性。我们发现 G-Eval 中使用的自动思维链（CoT）并不总是使 G-Eval 与人类评分更加一致。我们还表明，强制 LLM 仅输出数字评分，如 G-Eval 中所示，是不理想的。最后，我们揭示出要求 LLM 解释其自身评分会持续改善 ChatGPT 与人类评分之间的相关性，并在两个元评估数据集上推动了最新技术的相关性。

Oct, 2023

基于 LLM 的评估者是否混淆了 NLG 质量标准？

通过设计和实际测试，我们发现 LLMs 在自然语言生成（NLG）评估中存在混淆不同评估标准的问题，这降低了它们的可靠性。为了进一步验证，我们首先总结了一个清晰的层次分类系统，包括 11 个常见方面的相关标准，然后设计了 18 种针对不同 LLMs 评估行为的攻击方法，并进行人工标注验证，揭示了 LLMs 固有的混淆问题以及其他值得关注的现象，从而为基于 LLMs 的评估提出了进一步的研究和改进的必要性。

Feb, 2024

大型语言模型在学生论文评价中的应用

本文通过三种场景下的评估：1）不提供指导，2）使用预先规定的评分标准，3）通过论文的两两对比，与实际学生论文一起使用大语言模型（LLM）进行评估，以降低教师的工作量。定量分析结果显示，使用预先规定的评分标准对 LLM 与教师评估之间存在强相关性，尽管存在有关评估质量和稳定性的担忧。因此，对 LLM 的评估意见进行了定性分析，结果表明：1）LLM 可以达到教师的评估能力，2）LLM 评估中的差异应解释为多样性而非混乱，3）人类和 LLM 的评估可以不同且相互补充。综上所述，本文建议将 LLM 视为教师评估委员会的合作伙伴，并为进一步研究提供了方向。

May, 2024

ALI-Agent: 基于代理评估法评估 LLMs 与人类价值观的一致性

基于大型语言模型的评估框架 ALI-Agent 可以自动化生成实际测试场景，评估模型与人类价值观的一致性，并探测出长尾风险。

May, 2024