比较单个性能得分并不能得出关于机器学习方法的结论
合作竞争的科学和技术领域变得越来越受欢迎。本文描述了一种评估方法来对比竞赛结果和竞争。这种方法具有普适性,但是以八个自然语言竞赛为案例进行了说明,涉及分类和回归问题。所提出的方法具有多种优势,包括与修正机制的即插即用比较和置信区间的包含。此外,我们引入了一些指标,使组织者能够评估竞赛的难度。我们的分析显示了我们方法在有效评估竞赛结果方面的潜在有用性。
Mar, 2024
对于限定的数据量,我们研究了算法评估与比较的理论极限,发现在黑盒测试下无法客观评价算法性能,除非可用数据点数远大于样本量。在评估特定训练模型性能方面则较为简单,只需要保留一组验证数据即可。同样地,我们探讨了算法稳定性假设是否足以解决问题,结果发现只有在高稳定性范围内,模型才能基本无差别。最后,我们还针对多个算法的比较问题也得出了类似的理论困难。
Feb, 2024
研究了如何在挑战设置中评估不同竞争者(算法)的表现,分析了 MeOffendEs @ IberLEF 2021 比赛的结果,并提议通过重采样技术(引导)进行推理,以支持挑战组织者的决策。
May, 2023
近年来,NLP 模型取得了巨大的进展,尤其是通过这方面的大量数据集进行性能评估。然而,有关特定数据集设计选择可能如何影响我们对模型能力的结论仍存在问题。本研究在组合泛化领域调查了六种建模方法在 4 个数据集上的表现,这些数据集根据 8 种组合分割策略进行划分,总计有 18 种组合泛化划分。我们的结果表明:i) 尽管所有数据集都设计用于评估组合泛化能力,但它们对建模方法的排名是不同的;ii) 由人类生成的数据集彼此之间更加一致,而与合成数据集之间的一致性较差;iii) 通常来说,数据集是否来自相同源头对于得到的模型排名的预测性更强,而是否保持相同的组合性解释则次之;iv) 数据中使用的词汇项目可以极大地影响结论。总的来说,我们的结果表明,在评估流行的评估数据集是否测量其意图时还有很多工作要做,建立更严格的评估标准可能有助于该领域的发展。
Oct, 2023
通过模拟对比机器学习算法的整个基准测试过程,我们发现数据采样、参数初始化和超参数选择对结果的影响显著。进一步分析今天所用的主要比较方法,我们提出一种反直觉的结果,即在不增加计算成本的情况下,将更多的变化源添加到不完美的估计器中可以接近更理想的估计器。通过五个不同的深度学习任务和架构,分析改进检测错误率,提出了性能比较的建议。
Mar, 2021
在本文中,我们引入了一种数值技术来评估报告的性能分数和假设的实验设置的一致性,通过三个与医学相关的应用程序,我们展示了这种方法如何有效地检测不一致性,从而保护研究领域的完整性。
Oct, 2023
该论文提出了一种重复性分析框架,用于对 NLP 任务算法的多个比较进行统计学分析,相对于 NLP 文献中目前未经统计证明的传统做法具有显著的理论优势,并通过多个应用案例展示了其实证价值。
Sep, 2017