挑战方案中分类器的比较

May, 2023

Comparison of classifiers in challenge scheme

Sergio Nava-Muñoz, Mario Graff Guerrero, Hugo Jair Escalante

TL;DR研究了如何在挑战设置中评估不同竞争者（算法）的表现，分析了 MeOffendEs @ IberLEF 2021 比赛的结果，并提议通过重采样技术（引导）进行推理，以支持挑战组织者的决策。

Abstract

In recent decades, challenges have become very popular in scientific research as these are crowdsourcing schemes. In particular, challenges are essential for developing →

challenges machine learning algorithms performance metrics dataset resampling techniques

发现论文，激发创造

AI 竞赛和基准测试：挑战和基准测试的生命周期

数据科学研究正在经历一场由技术、互联网和不断增长的计算能力驱动的革命。我们在此提出，需要创造性地利用科学研究和算法开发社区作为强大创新的轴心，通过关键评估、社区实验和集众智等方式，让这些社区参与科学发现探索，从而带来发展新的数据驱动、可复现且经过充分基准测试的算法解决方案，来解决当前感兴趣的基础性和应用性问题。通过协调社区参与高度复杂和大规模数据的分析，可以找到最佳应对这些挑战的鲁棒方法学。当社区参与采用竞赛形式，也被称为挑战赛时，分析方法的验证在本质上得到解决，建立了性能基准。最后，挑战赛促进跨学科开放创新，创建能够直接或间接协作解决重要科学差距的社区。通过共同努力，参与者可以解决诸如健康研究、气候变化和社会公正等各种重要问题。最重要的是，挑战赛可以催化和加速将复杂数据合成知识或可执行信息的过程，应被视为一个产生持久社会和研究贡献的强大工具。

Dec, 2023

自然语言处理竞赛中系统性能分析

合作竞争的科学和技术领域变得越来越受欢迎。本文描述了一种评估方法来对比竞赛结果和竞争。这种方法具有普适性，但是以八个自然语言竞赛为案例进行了说明，涉及分类和回归问题。所提出的方法具有多种优势，包括与修正机制的即插即用比较和置信区间的包含。此外，我们引入了一些指标，使组织者能够评估竞赛的难度。我们的分析显示了我们方法在有效评估竞赛结果方面的潜在有用性。

Mar, 2024

学术竞赛

学术挑战是推动现有技术发展、将特定主题和问题置于科学界关注的有效手段，同时也是缩小受限社群在访问和参与塑造研究领域方面的差距的重要方式。本文回顾了过去几年里在机器学习及相关领域内最具影响力的竞赛，并分析了各个学科领域的挑战。对科学挑战的目标、主要成就和未来几年的期望进行了审视。

Dec, 2023

生物医学图像分析竞赛排名需谨慎解读

本文中对已进行的生物医学图像分析挑战进行全面分析，展示了挑战的重要性，并表明缺乏质量控制具有重要影响，因此建议采用最佳实践指南以避免问题，并针对未来需解决的开放性研究问题进行定义。

Jun, 2018

超越排行榜：应对研究问题的见解和部署挑战

医学影像分析中，通过比赛来评估算法优劣的方式存在一些问题，如果评估不当会导致参赛者只是成绩提高了但并没有真正解决问题，因此提出了基于定性研究和定量研究的两类比赛类型，其中定量研究类似于实际的部署挑战。

Oct, 2018

更公平、更准确，但为谁而做？

该论文介绍了一种比较不同风险评估模型公平性的框架，特别关注与种族和性别的不平等问题，以预测再犯率和贷款为例进行实验。

Jun, 2017

比较单个性能得分并不能得出关于机器学习方法的结论

本文研究了模型性能评估方法的可靠性问题，并探讨了仅基于分割数据集评估模型性能的评估方法存在的缺陷。作者提出了基于分数分布的评估方法来代替传统评估方法。

Mar, 2018

PMLB: 机器学习评估和比较的大型基准测试套件

本文介绍了一个可访问、策划和开发的公共基准资源，用于促进不同机器学习方法的优缺点的识别。我们比较了这一资源中当前一组基准数据集的元特征，以表征可用数据的多样性。最后，我们应用了一些已经建立的机器学习方法到整个基准套件，并分析数据集和算法在性能方面是如何聚类的。该工作是了解流行基准套件的限制并开发将现有的基准标准与未来更多样化和有效标准相连接的资源的重要第一步。

Mar, 2017

基于真实数据的流式学习算法基准测试挑战

本文提出了一个用于挑战流算法的公共数据存储库，其中包含来自文献的最受欢迎的数据集和与公共健康问题有关的新数据集，旨在缓解涉及流分类器和漂移检测器的实验性评估中的数据集选择问题，并对数据分布中不同类型变化及其导致的原因和问题进行了深入的讨论。

Apr, 2020

机器学习中促进公平的干预措施比较研究

本篇研究通过开发公开基准来对不同的公平性增强算法进行比较，并发现许多公平性措施之间具有强烈的相关性，但这些措施也对数据集构成的波动敏感，这表明公平干预可能比以前认为的更脆弱。

Feb, 2018