The Ladder: 机器学习竞赛可靠的排行榜
本文提出了一种名为AutoCompete的高度自动化的机器学习框架,用于应对机器学习比赛,在数据类型、模型选择、超参数调整、避免过拟合和优化等方面具有较高效率,并证明了该系统相较于其他方法需要更少的运行时间并产生更好(或相同)的结果。
Jul, 2015
本文通过攻击数据挖掘比赛中的Oracle来推断出测试集中的部分Ground truth,并在Kaggle竞赛中证明了这一攻击的有效性和可行性。同时,本文还推导了一个关于批处理大小的上限,并给出了一个可以攻击包含未知标签子集的数据集的攻击方法。
Jul, 2017
本文通过使用AlphaZero和Hex的一系列实验,展示了基于模型大小和问题规模的机器学习实验结果可以被可靠地外推,并且同时可转化为测试和训练时间的计算能力的权衡来维持表现。
Apr, 2021
本文提出了一种评估模型排行榜的方法,并通过可视化分析工具给出了可分析模型优缺点并指导模型选择,该方法可减少41%的模型部署开发和测试工作量。
Jun, 2021
本文主张排行榜竞赛应该除了在给定的测试数据集上进行模型表现的评估外,也应该在实际应用场景下评估模型的表现,并提出了解决当前排行榜系统存在的问题的新模式,以期引起向更实际应用场景为中心的排行榜竞赛的范式转变。
Mar, 2023
描述了Orkg-Leaderboard软件的设计和应用,该软件能够从大量的人工智能实证研究论文中自动提取以任务-数据集-指标三元组定义的排行榜,并且能够支持学术出版的主要流程,以LaTeX文件或PDF文件的形式发布,同时结合Open Research Knowledge Graph平台实现与语义Web基础设施的有机整合,使得系统输出的信息能够被机器进行操作和理解。该应用还能追踪AI发展的进程和状态,提供实时动态的信息服务。
May, 2023
通过统计重采样技术,本研究调查了竞赛结果的普遍适用性问题,并提出了一种基于重采样性能数据的统计稳健解算器排名方法。应用于最近的SAT、AI规划和计算机视觉竞赛,分析结果显示了解算器性能的频繁统计并列以及与基于简单评分的官方结果相比的排名倒置。
Aug, 2023
该论文介绍了LEGOBench,这是一个用于评估生成排行榜系统的基准。通过从arXiv的22年预印本提交数据和PapersWithCode门户的11,000多个机器学习排行榜中进行策划,我们评估了四种传统的基于图形的排名变体和三种最近提出的大型语言模型,结果显示在自动排行榜生成方面存在显著的性能差距。该论文提供代码和数据集的链接。
Jan, 2024
本研究解决了手动构建和维护科学排行榜的困难,提出了一个经过人工整理的科学排行榜数据集SciLead,以克服当前数据集的不完整性和不准确性。基于该数据集,开发了一种全面的基于大语言模型的排行榜构建框架,揭示了其在抽取结果值方面的挑战,具有重要的实际应用潜力。
Sep, 2024