自然语言处理中的分类评估指标问题讨论

ACLJan, 2024

自然语言处理中的分类评估指标问题讨论

We Need to Talk About Classification Evaluation Metrics in NLP

Peter Vickers, Loïc Barrault, Emilio Monti, Nikolaos Aletras

TL;DR在自然语言处理（NLP）分类任务中，衡量模型泛化能力的常规度量指标（如准确率、F - 度量或 AUC-ROC）的多样性和任意性表明 NLP 领域尚无一致的最佳度量指标。本文对比了几种常规分类度量指标与更具特异性的度量指标，并证明随机猜测的归一化信息性度量是任务性能的简约基准。通过广泛实验，在包括合成场景、自然语言理解、问题回答和机器翻译在内的多个 NLP 任务上使用了一组度量指标对模型进行排名，得出归一化信息性度量最能捕捉到理想模型特征。最后，我们发布了一个按照 SciKitLearn 分类器格式实现的 Python 版本的归一化信息性度量。

Abstract

In natural language processing (NLP) classification tasks such as topic categorisation and sentiment analysis, model generalizability is generally measured with standard →

natural language processing classification tasks metrics heuristics informedness

发现论文，激发创造

自然语言处理性能评估指标的全球分析

本文介绍了自然语言处理领域中用于测量模型性能的度量标准，发现当前使用的大多数指标存在评估不足及解释性差等问题，导致透明性和可重复性的降低。

Apr, 2022

量化自然语言处理中的社会偏见：对外在公平度量的一般化及实证比较

本文提出了三个广义公平度量标准，系统分析了不同的参数选择如何导致公平度量方法之间的差异，以更好地了解和处理 NLP/ML 模型中的不公平性。

Jun, 2021

评价：从精度、召回率和 F - 度量到 ROC、知情度、标记度和相关性

本研究讨论了常见的评估措施，指出它们存在偏差，需要清楚理解偏差并识别其机会或基线水平，提出了反映预测是否知情的概率的若干概念和测量方法，引入了 Markedness 作为一种相对应的概率的二元测度，展示了 Informedness，Markedness，相关性和重要性的优雅联系，以及它们与召回率和准确率之间的直观关系，并概述了从二分类情况扩展到一般的多类情况。

Oct, 2020

分类评估指标的深入研究及对常见评估实践的批判性反思

分类系统在无数篇论文中进行评估。然而，我们发现评估实践通常是模糊的。经常情况下，指标选择是没有依据的，模糊的术语容易引起误解。本文从偏倚和普遍性的直观概念出发，对常用的评估指标进行分析，考虑到论文中所表达的期望。通过对度量选择的全面理解，我们调查了自然语言处理的最近共享任务中的度量选择情况。结果显示，度量选择通常缺乏令人信服的论证，这可能使得任何排名看起来都是随意的。本工作旨在提供概览和指导，以实现更有见地和透明的度量选择，推动有意义的评估。

Apr, 2024

蒙特卡罗研究的评估

通过理论分析和 Monte Carlo 模拟，对传统评估方法中存在的偏见进行了讨论，提出了一些不受偏见影响的替代评估方法，如 Cohen Kappa，并进行了实证评估。

Apr, 2015

自然语言生成系统所使用的评价指标调查

该论文介绍了目前自然语言生成领域的研究现状及其衡量标准的快速发展，说明了早期的启发式量化策略难以满足各种不同类型 NLG 任务的需求，因此需要发展更加准确的自动评估指标，并给出了该领域发展的建议和方向。

Aug, 2020

分类度量标准的分析与比较

该文讨论了机器学习领域最常见的分类系统性能指标，比较了它们与期望成本和 PSR 等其他指标之间的关系，并认为后者更为优秀和高效。

Sep, 2022

自然语言处理基准测试质量相关参数综述

该文介绍了如何通过识别语言属性来发现和衡量数据倾向性，以此建立一个质量量化测度来解决 NLP 中 benchmark 存在的数据倾向性问题。

Oct, 2022

用于神经 NLP 的精细可解释性评估基准

本文提出了一种新的基准来评估神经网络模型和显著性方法的解释能力，其中包含英文和中文标注数据以及用于评估解释能力的标记。实验结果揭示了三种模型和三种显著性方法的解释能力的优劣，希望这个基准可以促进建立值得信赖的系统的研究。

May, 2022

揭示以度量为重点的 LLM 评估：挑战与解决方案

NLP 中，大型语言模型（LLMs）的成功推动了其显著突破，本文对 LLM 的评估方法进行了全面探索，提供了选择和解读已使用度量标准的见解，并采用最新的生物医学 LLM 进行了这些度量标准的应用比较，旨在为研究人员提供一个实用的指南，推进对这些大型语言模型的理解和应用。

Apr, 2024