Feb, 2021

MS MARCO 文档排名榜中的显著性改进案例研究

TL;DR本文讨论了现代应用机器学习研究中用来排序的排行榜,分析了当前榜首成为 “state of the art” 的机制,他们不 use 常用的 signifance testing,并提出了一种明确区分排名结果的评估框架。此外,文章分析了 MS MARCO 文档排名排行榜中 SOTA runs 的实证结果,发现与当前官方评估标准(MRR@100)相比,这种评估框架可以更准确地比较运行结果的质量。