ACLApr, 2024

分类评估指标的深入研究及对常见评估实践的批判性反思

TL;DR分类系统在无数篇论文中进行评估。然而,我们发现评估实践通常是模糊的。经常情况下,指标选择是没有依据的,模糊的术语容易引起误解。本文从偏倚和普遍性的直观概念出发,对常用的评估指标进行分析,考虑到论文中所表达的期望。通过对度量选择的全面理解,我们调查了自然语言处理的最近共享任务中的度量选择情况。结果显示,度量选择通常缺乏令人信服的论证,这可能使得任何排名看起来都是随意的。本工作旨在提供概览和指导,以实现更有见地和透明的度量选择,推动有意义的评估。