EMNLPMay, 2022

人类评估中的真实性差距

TL;DR本文提出 NLG 评估标准协议中存在的假设并分析了其局限性,同时提出了一个更理论严谨的改进方案,并针对开放式任务提出了新的 SPA 人类评估协议。使用 SPA 进行人类评估时,可以使用系统级概率评估恢复 GPT-3 模型大小排序且差异具有统计学意义。