ACLMay, 2023

基于经验的度量偏好清单:超越相关性分析的自然语言生成评估指标

TL;DR该研究分析了基于人类评估方面作为上下文或目标来计算 NLG 自动度量的自动度量,并提出了度量偏好清单作为评估自动度量在三个 NLG 任务中的区分能力的框架。研究显示,多方面的人性化度量并不一定比单方面的人性化度量和任务不可知度量更为优越,并且自动度量在一些情况下提供了比人类更好的指导。该框架提供了验证自动度量是否忠实于人类偏好的访问,以及审查 NLG 系统的优势和局限性的能力。