EMNLPSep, 2021

使用 MTurk 评估开放式文本生成的风险

TL;DR本文对目前 45 篇与开放式文本生成相关的论文进行了调查,并发现它们中绝大多数未报告有关 Amazon Mechanical Turk 任务的关键细节,从而影响了可重复性。本文还进行了故事评估实验,发现即使使用严格的资格筛选器,AMT 工作者(与教师不同)也无法区分模型生成的文本和人类生成的参考文本。研究表明,当 AMT 工人同时展示模型生成的输出和人类生成的参考文本时,工人的判断能力得到了提高,并为评估过程提供了深刻的洞察。