Jun, 2021

所有 ' 人类 ' 皆非黄金:评估生成文本的人类评估

TL;DR研究评估非专家区分人工和机器生成文本 (使用 GPT2 和 GPT3) 的能力,指出评估者不经培训情况下很难区分,通过三种方法培训后的准确率提高到了 55%,但在三个领域中并没有显著提高。作者分析了训练不足的人类评估在自然语言生成领域的作用,并提供了改进人工评估的建议。