Sep, 2023

文本生成动作的最佳自动评估指标是什么?

TL;DR人们对从自然语言描述中生成基于骨架的人类动作越来越感兴趣。本文系统地研究了哪些度量标准与人类评价最为相关,并提出了新的度量标准,这些度量标准与人类判断之间的相关性更好。通过对样本水平的人类评价,发现目前用于此任务的度量标准中没有一个与人类判断呈现中度甚至更高的相关性。然而,用于评估模型平均性能的常用度量标准(例如 R-Precision)和较少使用的坐标误差表现出了较强的相关性。此外,与其他替代方法相比,不推荐使用一些最近开发的度量标准,因为它们与人类判断的相关性较低。我们还引入了一种基于多模态 BERT 模型 MoBERT 的新度量标准,该度量标准在样本级别上与人类判断高度相关,并且在模型级别上具有近乎完美的相关性。我们的结果表明,这种新度量标准比当前所有替代方案都有广泛的优势。