ACLJan, 2024

自然语言处理中的分类评估指标问题讨论

TL;DR在自然语言处理(NLP)分类任务中,衡量模型泛化能力的常规度量指标(如准确率、F - 度量或 AUC-ROC)的多样性和任意性表明 NLP 领域尚无一致的最佳度量指标。本文对比了几种常规分类度量指标与更具特异性的度量指标,并证明随机猜测的归一化信息性度量是任务性能的简约基准。通过广泛实验,在包括合成场景、自然语言理解、问题回答和机器翻译在内的多个 NLP 任务上使用了一组度量指标对模型进行排名,得出归一化信息性度量最能捕捉到理想模型特征。最后,我们发布了一个按照 SciKitLearn 分类器格式实现的 Python 版本的归一化信息性度量。