The Ladder: 机器学习竞赛可靠的排行榜

Feb, 2015

The Ladder: 机器学习竞赛可靠的排行榜

The Ladder: A Reliable Leaderboard for Machine Learning Competitions

Avrim Blum, Moritz Hardt

TL;DR提出了一种适用于机器学习竞赛的“排行榜精度”概念，引入名为“梯子”的自适应估计算法，在理论和实践中均具有高保真性、防御能力和实用价值，可在实际比赛中无需任何调整地部署。

Abstract

The organizer of a machine learning competition faces the problem of maintaining an accurate leaderboard that faithfully represents the quality of the best submission of each competing team. What makes this estimation problem particularly challenging is its sequential and adaptive natu

发现论文，激发创造

AutoCompete：机器学习竞赛框架

本文提出了一种名为AutoCompete的高度自动化的机器学习框架，用于应对机器学习比赛，在数据类型、模型选择、超参数调整、避免过拟合和优化等方面具有较高效率，并证明了该系统相较于其他方法需要更少的运行时间并产生更好（或相同）的结果。

Jul, 2015

利用负对数损失的预言者攀升 Kaggle 排行榜

本文通过攻击数据挖掘比赛中的Oracle来推断出测试集中的部分Ground truth，并在Kaggle竞赛中证明了这一攻击的有效性和可行性。同时，本文还推导了一个关于批处理大小的上限，并给出了一个可以攻击包含未知标签子集的数据集的攻击方法。

Jul, 2017

基于配对比较的近似排名

研究在机器学习中，基于两两比较对一组n个项目进行排名的问题，提出了一种基于置信区间的活跃排名算法，通过近似排序来减少比较次数。

Jan, 2018

使用桌游进行尺度律研究

本文通过使用AlphaZero和Hex的一系列实验，展示了基于模型大小和问题规模的机器学习实验结果可以被可靠地外推，并且同时可转化为测试和训练时间的计算能力的权衡来维持表现。

Apr, 2021

模型排名的强韧性：为平等评估量身定制的排行榜方法

本文提出了一种评估模型排行榜的方法，并通过可视化分析工具给出了可分析模型优缺点并指导模型选择，该方法可减少41%的模型部署开发和测试工作量。

Jun, 2021

Self-Improving-Leaderboard（SIL）：呼唤以实际为中心的自然语言处理排行榜

本文主张排行榜竞赛应该除了在给定的测试数据集上进行模型表现的评估外，也应该在实际应用场景下评估模型的表现，并提出了解决当前排行榜系统存在的问题的新模式，以期引起向更实际应用场景为中心的排行榜竞赛的范式转变。

Mar, 2023

ORKG-Leaderboards：基于知识图谱的排行榜挖掘系统工作流程

描述了Orkg-Leaderboard软件的设计和应用，该软件能够从大量的人工智能实证研究论文中自动提取以任务-数据集-指标三元组定义的排行榜，并且能够支持学术出版的主要流程，以LaTeX文件或PDF文件的形式发布，同时结合Open Research Knowledge Graph平台实现与语义Web基础设施的有机整合，使得系统输出的信息能够被机器进行操作和理解。该应用还能追踪AI发展的进程和状态，提供实时动态的信息服务。

May, 2023

AI竞赛 - 使用统计复采样稳健地排名求解器

通过统计重采样技术，本研究调查了竞赛结果的普遍适用性问题，并提出了一种基于重采样性能数据的统计稳健解算器排名方法。应用于最近的SAT、AI规划和计算机视觉竞赛，分析结果显示了解算器性能的频繁统计并列以及与基于简单评分的官方结果相比的排名倒置。

Aug, 2023

LEGOBench：科学模型排行榜生成基准

该论文介绍了LEGOBench，这是一个用于评估生成排行榜系统的基准。通过从arXiv的22年预印本提交数据和PapersWithCode门户的11,000多个机器学习排行榜中进行策划，我们评估了四种传统的基于图形的排名变体和三种最近提出的大型语言模型，结果显示在自动排行榜生成方面存在显著的性能差距。该论文提供代码和数据集的链接。

Jan, 2024

高效性能追踪：利用大语言模型自动构建科学排行榜

本研究解决了手动构建和维护科学排行榜的困难，提出了一个经过人工整理的科学排行榜数据集SciLead，以克服当前数据集的不完整性和不准确性。基于该数据集，开发了一种全面的基于大语言模型的排行榜构建框架，揭示了其在抽取结果值方面的挑战，具有重要的实际应用潜力。

Sep, 2024