May, 2021

大数据环境下排名模型基准测试

TL;DR通过比较 MS MARCO 和 TREC 深度学习赛道与 1990 年代的 TREC 专家检索的情况,本文探讨了评估努力的设计如何鼓励或阻碍某些结果,提出避免这些困难的最佳实践,概述了该领域的研究进展,并描述了我们对于 “健壮有用性” 的期望结束状态。