Feb, 2021
MS MARCO 文档排名榜中的显著性改进案例研究
Significant Improvements over the State of the Art? A Case Study of the MS MARCO Document Ranking Leaderboard
Jimmy Lin, Daniel Campos, Nick Craswell, Bhaskar Mitra, Emine Yilmaz
TL;DR本文讨论了现代应用机器学习研究中用来排序的排行榜,分析了当前榜首成为 “state of the art” 的机制,他们不 use 常用的 signifance testing,并提出了一种明确区分排名结果的评估框架。此外,文章分析了 MS MARCO 文档排名排行榜中 SOTA runs 的实证结果,发现与当前官方评估标准(MRR@100)相比,这种评估框架可以更准确地比较运行结果的质量。