人类评估中的真实性差距

EMNLPMay, 2022

The Authenticity Gap in Human Evaluation

Kawin Ethayarajh, Dan Jurafsky

TL;DR本文提出 NLG 评估标准协议中存在的假设并分析了其局限性，同时提出了一个更理论严谨的改进方案，并针对开放式任务提出了新的 SPA 人类评估协议。使用 SPA 进行人类评估时，可以使用系统级概率评估恢复 GPT-3 模型大小排序且差异具有统计学意义。

Abstract

Human ratings are the gold standard in nlg evaluation. The standard protocol is to collect ratings of generated text, average across annotators, and rank NLG systems by their average scores. However, little consideration has been given as to whether this approach faithfully captures

nlg evaluation utility theory human preferences likert scales system-level probabilistic assessment

发现论文，激发创造

所有 ' 人类 ' 皆非黄金：评估生成文本的人类评估

研究评估非专家区分人工和机器生成文本 (使用 GPT2 和 GPT3) 的能力，指出评估者不经培训情况下很难区分，通过三种方法培训后的准确率提高到了 55%，但在三个领域中并没有显著提高。作者分析了训练不足的人类评估在自然语言生成领域的作用，并提供了改进人工评估的建议。

Jun, 2021

将主观众评估作为改进自然语言生成的附加客观标准的估计

本文探讨在多任务学习设置中，使用主观评估作为语言生成模型训练的一部分，并使用群众创作对话语料库对六种不同的语言生成模型进行微调。评估显示，多任务学习的模型生成的话语在主观上评分最高，且在推动对话发展、无冒犯性等方面得分最高。因此，将来可以研究将主观人类评估纳入语言生成模型训练中，从而在开发过程中更好地与人类用户进行交互。

Apr, 2021

人还是机器？自动化自然语言生成文本人类相似性评估

本文提出了一种基于大型预训练语言模型和概率分布的区分程序来自动评估自然语言生成方法产生的文本样本的人类相似度分数，与人类判断的自动评估进行了验证。

Jun, 2020

人类反馈非黄金标准

人工反馈被广泛应用于评估大型语言模型的性能，但目前尚不清楚这个单一的 “偏好” 得分到底捕捉到了生成输出的哪些特性。我们假设偏好得分是主观的，并且可能存在不可取的偏差。我们批判性地分析了人工反馈在训练和评估中的使用，以验证其是否充分捕捉到一系列关键错误标准。我们发现，虽然偏好得分的覆盖面较好，但却未充分表示重要方面，如事实性。此外，我们假设偏好得分和错误标注都可能受到混杂因素的影响，并利用针对指令的模型生成具有两个可能混杂维度（肯定性和复杂性）的输出。我们发现输出的肯定性会使事实错误的感知率产生偏倚，表明人工标注不是一个完全可靠的评估度量或训练目标。最后，我们提供初步证据，表明使用人工反馈作为训练目标会不成比例地增加模型输出的肯定性。我们鼓励未来的研究仔细考虑偏好得分是否与所期望的目标一致。

Sep, 2023

RankME：自然语言生成的可靠人类评级

本文提出了一种新颖的基于排名的幅度估计方法（RankME），用于改善自然语言生成过程中人类评价的一致性和可靠性，并且可以根据多个不同的标准评估系统质量，是一种有效和经济的评估方法。

Mar, 2018

GPTEval：利用 GPT-4 进行更有效的人工智能对齐的自然语言生成评估

使用大型语言模型和一种具有连续思考特点的填充范式，提出了一种 NLG 质量评估框架，结合两种生成任务 —— 文本摘要和对话生成，使用 GPT-4 模型作为骨干模型，与以往方法相比性能更好。

Mar, 2023

基于经验的度量偏好清单：超越相关性分析的自然语言生成评估指标

该研究分析了基于人类评估方面作为上下文或目标来计算 NLG 自动度量的自动度量，并提出了度量偏好清单作为评估自动度量在三个 NLG 任务中的区分能力的框架。研究显示，多方面的人性化度量并不一定比单方面的人性化度量和任务不可知度量更为优越，并且自动度量在一些情况下提供了比人类更好的指导。该框架提供了验证自动度量是否忠实于人类偏好的访问，以及审查 NLG 系统的优势和局限性的能力。

May, 2023

形式胜于内容：大型语言模型的评估偏见

在评估自然语言生成的过程中，使用大型语言模型 (LLMs) 作为人类评判的替代方法是一种最新的趋势。然而，本研究发现其评估结果存在偏见。为解决这一问题，提出了多维度独立评估系统 (Multi-Elo Rating System)，在提高 LLM 评估质量方面取得了显著成效，但对众包评估没有明显改善，需要进一步探索和改进。

Jul, 2023

GPT 与人类在科学评论中的对比：ChatGPT 在科学领域的应用的双重来源评论

新型多面手大语言模型可通过分析大量数据加快科学评审，使用更无偏的定量度量指标，促进跨学科的联系，确定新兴趋势和研究领域，并通过评估大量数据来识别的方法，但目前它们缺乏对复杂方法的深入理解，评估创新性的主张存在困难，并且无法评估伦理问题和利益冲突。

Dec, 2023

评判评判者：针对在线评论生成的神经语言模型的大规模评估研究

本文研究自然语言生成的评估方法，并通过自动化评估和人工评估的比较，发现词汇重叠是自然语言生成的较好评估指标，而人工评估与自动化评估在排名上存在较大差异，因此呼吁重新考虑自然语言生成的评估目标。

Jan, 2019