所有 ' 人类 ' 皆非黄金：评估生成文本的人类评估

Jun, 2021

所有 ' 人类 ' 皆非黄金：评估生成文本的人类评估

All That's 'Human' Is Not Gold: Evaluating Human Evaluation of Generated Text

Elizabeth Clark, Tal August, Sofia Serrano, Nikita Haduong, Suchin Gururangan...

TL;DR研究评估非专家区分人工和机器生成文本 (使用 GPT2 和 GPT3) 的能力，指出评估者不经培训情况下很难区分，通过三种方法培训后的准确率提高到了 55%，但在三个领域中并没有显著提高。作者分析了训练不足的人类评估在自然语言生成领域的作用，并提供了改进人工评估的建议。

Abstract

Human evaluations are typically considered the gold standard in natural language generation, but as models' fluency improves, how well can evaluators detect and judge machine-generated text? We run a study assessing non-experts' ability to distinguish between human- and machine-authore

natural language generation machine-generated text gpt2 gpt3 nlg evaluation

发现论文，激发创造

人类评估中的真实性差距

本文提出 NLG 评估标准协议中存在的假设并分析了其局限性，同时提出了一个更理论严谨的改进方案，并针对开放式任务提出了新的 SPA 人类评估协议。使用 SPA 进行人类评估时，可以使用系统级概率评估恢复 GPT-3 模型大小排序且差异具有统计学意义。

May, 2022

GPT 与人类在科学评论中的对比：ChatGPT 在科学领域的应用的双重来源评论

新型多面手大语言模型可通过分析大量数据加快科学评审，使用更无偏的定量度量指标，促进跨学科的联系，确定新兴趋势和研究领域，并通过评估大量数据来识别的方法，但目前它们缺乏对复杂方法的深入理解，评估创新性的主张存在困难，并且无法评估伦理问题和利益冲突。

Dec, 2023

当自动评估遇上自动内容生成：审视 GPT 时代的文本质量

基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器（GPT）的文本评估模型之间的差异，发现转换器预训练语言模型（PLM）相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量，但相对于人工创作的文档，GPT 生成的文本评分平均要高出 10-15％。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。

Sep, 2023

人工智能协作生成自由文本解释的重新构架

本文探讨利用人类书写的样例以几乎无监督的方式创作自由文本解释的任务，发现高质量的提示有助于提高语言模型的生成效果，同时人类研究表明 GPT-3 生成的解释在某些情况下能够胜过人工生成的解释；作者还结合 GPT-3 与学习自评价的筛选器对生成的解释进行过滤，结果表明这一方法能够实现较高水平的解释过滤。

Dec, 2021

人还是机器？自动化自然语言生成文本人类相似性评估

本文提出了一种基于大型预训练语言模型和概率分布的区分程序来自动评估自然语言生成方法产生的文本样本的人类相似度分数，与人类判断的自动评估进行了验证。

Jun, 2020

评判评判者：针对在线评论生成的神经语言模型的大规模评估研究

本文研究自然语言生成的评估方法，并通过自动化评估和人工评估的比较，发现词汇重叠是自然语言生成的较好评估指标，而人工评估与自动化评估在排名上存在较大差异，因此呼吁重新考虑自然语言生成的评估目标。

Jan, 2019

GPTEval：利用 GPT-4 进行更有效的人工智能对齐的自然语言生成评估

使用大型语言模型和一种具有连续思考特点的填充范式，提出了一种 NLG 质量评估框架，结合两种生成任务 —— 文本摘要和对话生成，使用 GPT-4 模型作为骨干模型，与以往方法相比性能更好。

Mar, 2023

模仿游戏：在大型语言模型时代检测人类和 AI 生成的文本

通过对人类写作文本和基于大型语言模型的生成文本进行比较研究，该论文展示了在不同文体中对于人类文本和生成文本进行分类的机器学习模型的效果，同时指出在故事写作方面识别生成文本的困难性，为未来在人工智能文本识别方面提供了启示和研究数据集。

Jul, 2023

文本生成的评估：一项调查

该文章调查了近年来开发的自然语言生成（NLG）系统的评估方法。将 NLG 评估方法分为三类，讨论了每种类别取得的进展和仍然面临的挑战，重点关注最近提出的 NLG 任务和神经 NLG 模型的评估。最后提出了自动文本摘要和长文本生成的两个任务特定的 NLG 评估示例，并提出了未来的研究方向。

Jun, 2020

GPTScore：任意评估

本文提出了一种新的评估框架 GPTScore，利用生成预训练模型的崭新能力对生成的文本进行评分，实验结果表明该方法能够高效地实现对文本的定制化、多方面评估，不需要注解样本。

Feb, 2023