最佳系统是什么？自然语言处理基准测试的新视角

Feb, 2022

最佳系统是什么？自然语言处理基准测试的新视角

What are the best systems? New perspectives on NLP Benchmarking

Pierre Colombo, Nathan Noiry, Ekhine Irurozki, Stephan Clemencon

TL;DR该研究提出一种新的基于社会选择理论的系统排名方法，用于评估机器学习中使用 benchmark 的效果。该方法在评估自然语言处理中的预训练模型时更为可靠且稳健，有别于简单的平均聚合，可为实际应用提供最佳的系统选择。

Abstract

In machine learning, a benchmark refers to an ensemble of datasets associated with one or multiple metrics together with a way to aggregate different systems performances. They are instrumental in (i) assessing t

machine learning benchmark nlp pre-trained models system ranking

发现论文，激发创造

投票与排序：基于社会选择理论的基准评估修订

该论文提出了 Vote'n'Rank 框架用于在多任务基准测试中排名系统，并通过该方法在不同领域中比较多个系统的表现，从而得出结论和新的 insights。

Oct, 2022

比平均水平更好：自然语言处理系统的成对评估

本 paper 探讨了语言处理领域中评估模型常使用的平均值等聚合方法存在的缺陷，并通过理论与实验证明采用基于对比的聚合方法如测量模型间比较的 Bradley-Terry（BT）模型可以更好的反映模型之间的差异。最后，研究提供了一个可供实用的工具来辅助基于 BT 方法进行实验评估。

Oct, 2021

构建更稳健的 NLP 系统评估：在基准测试中处理缺失得分

本研究提出了一种针对 NLP 研究中系统得分缺失的基准评估方法，使用 Borda 计数方法聚合使用兼容的局部排名方法填补的缺失数据，并引入一个包含超过 1.31 亿个得分的扩展基准评估，验证了该方法在处理实际情况中缺失系统评估的有效性。

May, 2023

自然语言处理性能评估指标的全球分析

本文介绍了自然语言处理领域中用于测量模型性能的度量标准，发现当前使用的大多数指标存在评估不足及解释性差等问题，导致透明性和可重复性的降低。

Apr, 2022

PMLB: 机器学习评估和比较的大型基准测试套件

本文介绍了一个可访问、策划和开发的公共基准资源，用于促进不同机器学习方法的优缺点的识别。我们比较了这一资源中当前一组基准数据集的元特征，以表征可用数据的多样性。最后，我们应用了一些已经建立的机器学习方法到整个基准套件，并分析数据集和算法在性能方面是如何聚类的。该工作是了解流行基准套件的限制并开发将现有的基准标准与未来更多样化和有效标准相连接的资源的重要第一步。

Mar, 2017

如何改进自然语言理解基准测试？

该论文提出了评估自然语言理解任务的四个标准，并指出目前大多数现有标准都无法满足这些标准，而对抗性数据收集并不能有效地解决这些失败的根本原因。为了恢复健康的评估生态系统，需要在基准数据集的设计、标注的可靠性、其大小以及处理社会偏见的方式方面取得显著进展。

Apr, 2021

自然语言处理竞赛中系统性能分析

合作竞争的科学和技术领域变得越来越受欢迎。本文描述了一种评估方法来对比竞赛结果和竞争。这种方法具有普适性，但是以八个自然语言竞赛为案例进行了说明，涉及分类和回归问题。所提出的方法具有多种优势，包括与修正机制的即插即用比较和置信区间的包含。此外，我们引入了一些指标，使组织者能够评估竞赛的难度。我们的分析显示了我们方法在有效评估竞赛结果方面的潜在有用性。

Mar, 2024

基准彩票

本文提出了 “基准测试彩票” 的概念，以描述机器学习基准测试过程的整体脆弱性，指出基准测试流程中的许多因素可能导致某种方法被认为优越。同时，本文通过选择不同的基准任务，揭示了算法的相对性能可能会显著改变，强调了当前范式的脆弱性，并提出了缓解这种情况的建议。

Jul, 2021

重新评估评估

本文介绍了一种叫作 Nash 平均的评估方法，能够自动适应评估数据中的冗余信息，从而避免了采用简单任务或弱智能体造成的结果偏差，实现了最大程度的评估包容性。

Jun, 2018

自然语言处理基准测试质量相关参数综述

该文介绍了如何通过识别语言属性来发现和衡量数据倾向性，以此建立一个质量量化测度来解决 NLP 中 benchmark 存在的数据倾向性问题。

Oct, 2022