合作评估：探索大型语言模型与人类在开放式生成评估中的协同作用

Oct, 2023

合作评估：探索大型语言模型与人类在开放式生成评估中的协同作用

Collaborative Evaluation: Exploring the Synergy of Large Language Models and Humans for Open-ended Generation Evaluation

HTML

PDF

Qintong Li, Leyang Cui, Lingpeng Kong, Wei Bi

TL;DR为了解决开放式自然语言生成任务中评估标准不一致的挑战，我们提出了一种协同评估流程 CoEval，涉及特定任务标准的清单设计和文本的详细评估，其中大型语言模型生成初步的构思，而人类进行审查，结果显示，通过利用大型语言模型，CoEval能够高效地评估长文本，节省时间并减少人类评估的异常值，人类审查仍然起着重要作用，以最终确保可靠性。

Abstract

Humans are widely involved in the evaluation of open-ended natural language generation tasks (NLG) that demand creativity, as automatic metrics often exhibit weak correlations with human judgments. large language models

发现论文，激发创造

GPTEval：利用 GPT-4 进行更有效的人工智能对齐的自然语言生成评估

使用大型语言模型和一种具有连续思考特点的填充范式，提出了一种 NLG 质量评估框架，结合两种生成任务——文本摘要和对话生成，使用 GPT-4 模型作为骨干模型，与以往方法相比性能更好。

Mar, 2023

大型语言模型能否替代人类评估？

本文介绍了使用大型语言模型（LLM）代替人类评估来评估人工智能生成的文本的潜力，探索了LLM对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果，并发现LLM评估结果与人类专家的评估结果保持一致。

May, 2023

形式胜于内容：大型语言模型的评估偏见

在评估自然语言生成的过程中，使用大型语言模型 (LLMs) 作为人类评判的替代方法是一种最新的趋势。然而，本研究发现其评估结果存在偏见。为解决这一问题，提出了多维度独立评估系统 (Multi-Elo Rating System)，在提高 LLM 评估质量方面取得了显著成效，但对众包评估没有明显改善，需要进一步探索和改进。

Jul, 2023

对大型语言模型评估的调查

大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估LLMs的方法和维度，并总结了LLMs在不同任务中的成功案例、失败案例和未来挑战。

Jul, 2023

基于大型语言模型的评估器能够解决多语种评估的扩展问题吗？

通过对大型语言模型的评估，本文发现LLM-based evaluators在多语言评估方面可能存在偏差，并需要使用本地语言的数据集进行校准。

Sep, 2023

EvalLM: 大型语言模型提示的交互式评估及用户定义准则

通过评估多个用户定义的标准，使用自然语言描述系统的评估器提供的反馈，从而使开发人员能够通过迭代改进引导语。与手动评估相比，EvalLM有助于参与者构建更多样化的标准，检查两倍数量的输出，并在减少59%的修订次数后获得令人满意的引导语。该研究可扩展到模型评估和特定应用环境中的对齐。

Sep, 2023

利用大型语言模型进行自然语言生成评估：综述

自然语言生成（NLG）评估中引入大型语言模型（LLM）为评估生成内容质量提供了新的途径，本文提供了对利用LLM进行NLG评估的全面概述，包括组织现有基于LLM的评估指标的一致性分类法、批判性评估不同的LLM方法以及比较其在评估NLG输出中的优势和局限性，讨论未解决的挑战，并推动更公平、更先进的NLG评估技术。

Jan, 2024

大型语言模型的评估存在不一致和偏见

本研究通过使用SummEval数据集进行一系列分析，证实了大型语言模型作为评估器在以下方面存在偏见和不一致性：（1）体现对低困惑度文本的偏好；（2）显示具有偏见的评分分布；（3）经历多属性判断时的锚定效应。此外，我们分享了配置大型语言模型评估器以减轻这些限制的方法，通过RoSE数据集的实验证明了与最先进的大型语言模型评估器相比的改进。

May, 2024

ConSiDERS人类评估框架：重新思考生成式大型语言模型的人类评估

通过借鉴用户体验研究和人类行为心理学等学科的见解，我们在这篇论文中讨论了生成式大型语言模型（LLMs）的人工评估应该是一项跨学科工作，以确保实验设计和结果的可靠性。我们强调了认知偏见如何混淆流畅信息和真实性，以及认知不确定性如何影响评分（如Likert）的可靠性。此外，评估应该区分越来越强大的大型语言模型的能力和弱点，这需要有效的测试集。在生成式NLP时代设计一个有效的人工评估系统的可伸缩性也至关重要，因此我们提出了ConSiDERS-The-Human评估框架，它由一致性、评分标准、差异化、用户体验、负责任和可伸缩性这6个支柱组成。

May, 2024

大型语言模型在自然语言生成评估中的积极批评者

本研究解决了当前自然语言生成评估中，使用大型语言模型作为“被动批评者”的局限性，提出了一种新颖的“积极批评者”评估协议。该协议允许大型语言模型自我推断任务并动态优化评估标准，实现了与人类评估标准的更强一致性，并在多个评估任务中展现出其有效性和可解释性。

Oct, 2024