比较单个性能得分并不能得出关于机器学习方法的结论

Mar, 2018

比较单个性能得分并不能得出关于机器学习方法的结论

Why Comparing Single Performance Scores Does Not Allow to Draw Conclusions About Machine Learning Approaches

Nils Reimers, Iryna Gurevych

TL;DR本文研究了模型性能评估方法的可靠性问题，并探讨了仅基于分割数据集评估模型性能的评估方法存在的缺陷。作者提出了基于分数分布的评估方法来代替传统评估方法。

Abstract

Developing state-of-the-art approaches for specific tasks is a major driving force in our research community. Depending on the prestige of the task, publishing it can come along with a lot of visibility. The question arises how reliable are our →

evaluation methodologies state-of-the-art approaches performance differences learning approaches score distributions

发现论文，激发创造

更准确的结果差异统计学显著性检验

该研究探讨了在自然语言处理实证研究中，常用统计方法在独立性假设违反情况下，低估了统计差异的问题，并提出了一些不需要独立性假设的有效测试方法。

Aug, 2000

展示你的工作：实验结果的改进报告

通过使用验证数据和计算预算等指标，本文提出了一种新的模型比较方法，从而帮助实现更好地汇报实验结果和确保未来准确对比。

Sep, 2019

自然语言处理竞赛中系统性能分析

合作竞争的科学和技术领域变得越来越受欢迎。本文描述了一种评估方法来对比竞赛结果和竞争。这种方法具有普适性，但是以八个自然语言竞赛为案例进行了说明，涉及分类和回归问题。所提出的方法具有多种优势，包括与修正机制的即插即用比较和置信区间的包含。此外，我们引入了一些指标，使组织者能够评估竞赛的难度。我们的分析显示了我们方法在有效评估竞赛结果方面的潜在有用性。

Mar, 2024

算法性能无假设测试的限制

对于限定的数据量，我们研究了算法评估与比较的理论极限，发现在黑盒测试下无法客观评价算法性能，除非可用数据点数远大于样本量。在评估特定训练模型性能方面则较为简单，只需要保留一组验证数据即可。同样地，我们探讨了算法稳定性假设是否足以解决问题，结果发现只有在高稳定性范围内，模型才能基本无差别。最后，我们还针对多个算法的比较问题也得出了类似的理论困难。

Feb, 2024

挑战方案中分类器的比较

研究了如何在挑战设置中评估不同竞争者（算法）的表现，分析了 MeOffendEs @ IberLEF 2021 比赛的结果，并提议通过重采样技术（引导）进行推理，以支持挑战组织者的决策。

May, 2023

评估结果的有效性：评估组成性基准测试的一致性

近年来，NLP 模型取得了巨大的进展，尤其是通过这方面的大量数据集进行性能评估。然而，有关特定数据集设计选择可能如何影响我们对模型能力的结论仍存在问题。本研究在组合泛化领域调查了六种建模方法在 4 个数据集上的表现，这些数据集根据 8 种组合分割策略进行划分，总计有 18 种组合泛化划分。我们的结果表明：i) 尽管所有数据集都设计用于评估组合泛化能力，但它们对建模方法的排名是不同的；ii) 由人类生成的数据集彼此之间更加一致，而与合成数据集之间的一致性较差；iii) 通常来说，数据集是否来自相同源头对于得到的模型排名的预测性更强，而是否保持相同的组合性解释则次之；iv) 数据中使用的词汇项目可以极大地影响结论。总的来说，我们的结果表明，在评估流行的评估数据集是否测量其意图时还有很多工作要做，建立更严格的评估标准可能有助于该领域的发展。

Oct, 2023

机器学习基准测试中方差的考虑

通过模拟对比机器学习算法的整个基准测试过程，我们发现数据采样、参数初始化和超参数选择对结果的影响显著。进一步分析今天所用的主要比较方法，我们提出一种反直觉的结果，即在不增加计算成本的情况下，将更多的变化源添加到不完美的估计器中可以接近更理想的估计器。通过五个不同的深度学习任务和架构，分析改进检测错误率，提出了性能比较的建议。

Mar, 2021

测试二元分类问题的性能得分的一致性

在本文中，我们引入了一种数值技术来评估报告的性能分数和假设的实验设置的一致性，通过三个与医学相关的应用程序，我们展示了这种方法如何有效地检测不一致性，从而保护研究领域的完整性。

Oct, 2023

自然语言处理的可复现性分析：用多个数据集测试意义

该论文提出了一种重复性分析框架，用于对 NLP 任务算法的多个比较进行统计学分析，相对于 NLP 文献中目前未经统计证明的传统做法具有显著的理论优势，并通过多个应用案例展示了其实证价值。

Sep, 2017

更公平、更准确，但为谁而做？

该论文介绍了一种比较不同风险评估模型公平性的框架，特别关注与种族和性别的不平等问题，以预测再犯率和贷款为例进行实验。

Jun, 2017