May, 2021
大数据环境下排名模型基准测试
MS MARCO: Benchmarking Ranking Models in the Large-Data Regime
Nick Craswell, Bhaskar Mitra, Emine Yilmaz, Daniel Campos, Jimmy Lin
TL;DR通过比较 MS MARCO 和 TREC 深度学习赛道与 1990 年代的 TREC 专家检索的情况,本文探讨了评估努力的设计如何鼓励或阻碍某些结果,提出避免这些困难的最佳实践,概述了该领域的研究进展,并描述了我们对于 “健壮有用性” 的期望结束状态。