ACLJan, 2021

如何评估摘要生成器:手动语言质量评估的研究设计和统计分析

TL;DR通过对最近总结系统论文的调查,我们发现,在如何进行这样的评估研究方面存在很少的一致性。我们进行了两个评估实验来比较 Likert 类型和排名注释,并展示了评估方法的最佳选择可能因一个方面与另一个方面不同。使用我们的评估实验,我们展示了注释者的总数对研究功率有很强的影响,而目前的统计分析方法在把一个注释者判定多个摘要时会夸大 Ⅰ 类错误率高达 8 倍。此外,我们强调,为了进行系统比较,当前的实践是在一个固定的研究预算中引出多个判断,这会导致注释功率和可靠性较弱。