使用 MTurk 评估开放式文本生成的风险

EMNLPSep, 2021

使用 MTurk 评估开放式文本生成的风险

The Perils of Using Mechanical Turk to Evaluate Open-Ended Text Generation

Marzena Karpinska, Nader Akoury, Mohit Iyyer

TL;DR本文对目前 45 篇与开放式文本生成相关的论文进行了调查，并发现它们中绝大多数未报告有关 Amazon Mechanical Turk 任务的关键细节，从而影响了可重复性。本文还进行了故事评估实验，发现即使使用严格的资格筛选器，AMT 工作者（与教师不同）也无法区分模型生成的文本和人类生成的参考文本。研究表明，当 AMT 工人同时展示模型生成的输出和人类生成的参考文本时，工人的判断能力得到了提高，并为评估过程提供了深刻的洞察。

Abstract

Recent text generation research has increasingly focused on open-ended domains such as story and poetry generation. Because models built for such tasks are difficult to evaluate automatically, most researchers in the space justify their modeling choices by collecting →

text generation open-ended domains crowdsourced human judgments evaluation reproducibility

发现论文，激发创造

当自动评估遇上自动内容生成：审视 GPT 时代的文本质量

基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器（GPT）的文本评估模型之间的差异，发现转换器预训练语言模型（PLM）相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量，但相对于人工创作的文档，GPT 生成的文本评分平均要高出 10-15％。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。

Sep, 2023

所有 ' 人类 ' 皆非黄金：评估生成文本的人类评估

研究评估非专家区分人工和机器生成文本 (使用 GPT2 和 GPT3) 的能力，指出评估者不经培训情况下很难区分，通过三种方法培训后的准确率提高到了 55%，但在三个领域中并没有显著提高。作者分析了训练不足的人类评估在自然语言生成领域的作用，并提供了改进人工评估的建议。

Jun, 2021

AMR-to-English 生成系统的人类评价

本文针对从 AMR 生成英文文本的文本生成技术的研究，提出了新的人类评估方法，以便更准确地衡量其流利程度、完备性和错误类型，结果显示人类判断能够提供更细致的比较结果和常见错误分析。

Apr, 2020

使用机械土耳其工人构建机器翻译评估数据集

本文研究了使用 Amazon Mechanical Turk 来廉价的生产机器翻译测试集，实验表明，该方法产生的测试集与专业生产的测试集对于系统性能的结论基本一致。

Oct, 2014

机器翻译人类评估的有效性改进探讨

本研究探讨了一种简单的降低标注成本的方法，即采用分层抽样和控制变量等技术，结合文档成员身份信息和自动评估指标，从而在固定标注预算下获得更高的准确性。在测试集上，相比于纯随机抽样，平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。

Apr, 2022

文本生成：任务、评估和挑战的系统文献综述

文本生成领域的文献回顾研究了 244 篇论文，将文本生成的工作分类为五个主要任务，并分析了相关特点、子任务和具体挑战。此外，研究还评估了目前的评估方法，并确定存在的问题。研究指出了九个主要挑战，并提供了详细分析和解决方案，以及进一步研究需求。该文献回顾面向自然语言处理领域的初级研究人员和有经验的研究人员。

May, 2024

自动度量文本生成系统有效性研究

本篇论文提出了一种新的理论方法，用以评估文本生成模型的可靠性与鲁棒性，并在 WMT 21 和 Spot-The-Bot 数据上进行了应用与验证，并实现了对样本量的有效估算。

Oct, 2022

人类评估中的真实性差距

本文提出 NLG 评估标准协议中存在的假设并分析了其局限性，同时提出了一个更理论严谨的改进方案，并针对开放式任务提出了新的 SPA 人类评估协议。使用 SPA 进行人类评估时，可以使用系统级概率评估恢复 GPT-3 模型大小排序且差异具有统计学意义。

May, 2022

人工智能协作生成自由文本解释的重新构架

本文探讨利用人类书写的样例以几乎无监督的方式创作自由文本解释的任务，发现高质量的提示有助于提高语言模型的生成效果，同时人类研究表明 GPT-3 生成的解释在某些情况下能够胜过人工生成的解释；作者还结合 GPT-3 与学习自评价的筛选器对生成的解释进行过滤，结果表明这一方法能够实现较高水平的解释过滤。

Dec, 2021

自动度量文本生成偏好评级中的错误校正

本文介绍了一种基于统计模型的文本生成评估方法，利用自动化度量的优点和人工评级的精度，通过最佳组合的方式来改进文本生成评估的准确度，而且只需要使用人工评注的 50% 即可获得与 100% 人工评级相同的评估结果。

Jun, 2023