大数据环境下排名模型基准测试

May, 2021

MS MARCO: Benchmarking Ranking Models in the Large-Data Regime

Nick Craswell, Bhaskar Mitra, Emine Yilmaz, Daniel Campos, Jimmy Lin

TL;DR通过比较 MS MARCO 和 TREC 深度学习赛道与 1990 年代的 TREC 专家检索的情况，本文探讨了评估努力的设计如何鼓励或阻碍某些结果，提出避免这些困难的最佳实践，概述了该领域的研究进展，并描述了我们对于 “健壮有用性” 的期望结束状态。

Abstract

evaluation efforts such as trec, CLEF, NTCIR and FIRE, alongside public leaderboard such as ms marco, are intended to encourage research a

evaluation efforts information retrieval ms marco trec deep learning

发现论文，激发创造

MS MARCO 文档排名榜中的显著性改进案例研究

本文讨论了现代应用机器学习研究中用来排序的排行榜，分析了当前榜首成为 “state of the art” 的机制，他们不 use 常用的 signifance testing，并提出了一种明确区分排名结果的评估框架。此外，文章分析了 MS MARCO 文档排名排行榜中 SOTA runs 的实证结果，发现与当前官方评估标准（MRR@100）相比，这种评估框架可以更准确地比较运行结果的质量。

Feb, 2021

通过综合评估和排行榜了解长文档排名模型的性能

本研究综合评估了 13 个模型在排名长文档方面的功能，包括两种专用 Transformer 模型，同时分析了训练和比较这些模型的几个困难。结果表明，虽然 Robust04 和 MS MARCO 文件经常被用于长文件模型的基准测试，但我们认为它们并不特别有用。特别是在考虑到 relevant passages 的分布时，Simple FirstP Baseline 很有效。

Jul, 2022

稀疏标签的浅层池化

研究发现，使用神经系统排序后的检索结果往往比标准答案更受欢迎，表现出更好的排名表现。同样对于算法排名比较，建议使用最佳答案或最受欢迎的答案进行评价和持续改进。

Aug, 2021

TREC 2019 深度学习赛道概览

TREC 2019 新推出的 Deep Learning Track 使用大量标注数据，对包含三百万文档和五十万训练查询的 Ad Hoc 排名展开研究，结果 Deep Learning 方法在 15 组提交的 75 个运行中取得了优异的表现。

Mar, 2020

BERT 排名行为解析

本文研究了预先训练的 BERT 在排名任务中的表现和行为，探索了在两种排名任务中优化 BERT 的几种不同方法，并实验证明了 BERT 在问题回答焦点的段落排名任务中的强有效性，以及 BERT 作为强交互式序列到序列匹配模型的事实。

Apr, 2019

TREC 2019 公平排名任务综述

该研究介绍了 TREC Fair Ranking 跟踪项目，实现了服务于不同内容提供商公平性和相关度的基准评估，发布了一个数据集，目标是要公正地呈现来自多个未知组的相关作者的重要性，重点关注能够在各种组别定义下表现出强大性能的系统的开发。

Mar, 2020

mMARCO：MS MARCO 段落排名数据集的多语言版本

该研究介绍了 mMARCO，使用机器翻译创建的包含 13 种语言的 MS MARCO 段落排名数据集的多语言版本，并评估了针对该数据集的多语言重新排名模型和稠密检索模型的效果。研究者们还在零 - shot 场景下使用 mMARCO 数据集微调了模型，在 Mr.TyDi 数据集上展示了多语言模型相对于仅使用英文原版的模型的更高效性。这个研究也表明，翻译质量的提高与检索效果相关，为提高多语版信息检索的效果提供了理论支持。

Aug, 2021

预训练变形金刚在文本排名中的差异性如何？

本研究分析了基于 BERT 的交叉编码器与传统 BM25 排名在段落检索任务中的效果，发现它们在相关性概念上存在重要的差异，旨在鼓励未来改进研究。

Apr, 2022

TREC 深度学习赛道：大数据环境中可重用的测试集合

本文为支持 TREC Deep Learning 的数据重复利用，具体描述了数据集的详细情况，阐述了使用 TREC DL 数据写作论文的最佳实践方法，并对 TREC DL 数据的可重复性进行了分析。

Apr, 2021

2021 TREC 临床试验赛道中的 UNIMIB

探究了不同的查询表示方法结合不同的检索模型对检索性能的影响，同时提出了一种基于关键词提取方法的检索模型，并通过实验表明，该方法结合传统或基于决策论的相关性模型，可以显著提高查询效果。

Jul, 2022