Jun, 2024

超越随机:通过受限主动抽样进行可靠的自然语言生成人工评估

TL;DR为了提供更准确的系统间排名并使黄金标准的人工评估更可靠,我们提出了一种被限制的主动采样框架(CASF)用于可靠的人工判断。通过学习器、系统化采样器和约束控制器,CASF 选择代表性样本以获得更准确的系统间排名。CASF 在 137 个真实的 NLG 评估设置上进行了实验,涉及 16 个数据集和 5 个 NLG 任务,使用了 44 个人工评估指标。实验结果展示 CASF 在 93.18% 的情况下成功识别出排名最高的系统,并在 90.91% 的人工评估指标上排名第一或第二,整体系统间排名 Kendall 相关性为 0.83。代码和数据可在网上公开获得。