Mar, 2024

在自然语言生成系统评估中,引用是否有必要?何时何地?

TL;DR基于广泛的实验,本研究全面评估了参考无关度量与参考度量在各种自然语言生成任务中的性能,并表明参考无关度量与人类判断有较高相关性,并对语言质量的不足更敏感,然而其有效性因任务而异,受候选文本质量影响。因此,在应用参考无关度量到新任务时,特别是在输入形式不常见或答案空间高度变化时,有必要评估其性能。本研究为自动度量的适当应用以及度量选择对评估性能的影响提供了洞察。