使用 Longformer 进行 MS MARCO 文档重排任务

Sep, 2020

使用 Longformer 进行 MS MARCO 文档重排任务

Longformer for MS MARCO Document Re-ranking Task

Ivan Sekulić, Amir Soleimani, Mohammad Aliannejadi, Fabio Crestani

TL;DR本文研究了使用传统信息检索方法进行初检索，然后采用神经网络再排序模型的两步文档排序，使用了适合长文档的 BERT 模型变种 Longformer 在 MS MARCO 文档再排序任务上获得了最佳性能。

Abstract

two step document ranking, where the initial retrieval is done by a classical information retrieval method, followed by neural re-ranking model, is the new standard. The best performance is achieved by using

two step document ranking neural re-ranking model transformer-based models longformer ms marco

发现论文，激发创造

使用模块化 Re-ranker 进行长文档重新排名

本文提出了一种新的长文档重新排序方法，通过利用自注意力机制和模块化 Transformer 框架建立查询到文档的交互模型，避免了编码过程中低维度表示带来的信息瓶颈，实现了从全部文档中提取重要信息的目的，并在 Robust04 和 ClueWeb09 等数据集上实现了有效的重新排序。

May, 2022

通过综合评估和排行榜了解长文档排名模型的性能

本研究综合评估了 13 个模型在排名长文档方面的功能，包括两种专用 Transformer 模型，同时分析了训练和比较这些模型的几个困难。结果表明，虽然 Robust04 和 MS MARCO 文件经常被用于长文件模型的基准测试，但我们认为它们并不特别有用。特别是在考虑到 relevant passages 的分布时，Simple FirstP Baseline 很有效。

Jul, 2022

使用 TF-Ranking 中的 BERT 进行排序学习

该论文提出了一种利用 BERT 表示和 learning-to-rank 模型进行文档排序的机器学习算法。在公共基准测试中，采用这种方法可以取得更好的表现。最新的实验使用 RoBERTa 和 ELECTRA 模型，取得了较之其它方法更好的排名成绩。

Apr, 2020

Longformer：长文档转换器

Longformer 是一种基于 Transformers 的模型，采用能够线性缩放序列长度的自注意力机制，使得处理数千个记号以上的文档变得容易；与先前的一些工作不同的是，Longformer 同时进行了预训练和下游任务的微调，并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外，Longformer 还引入了 Longformer-Encoder-Decoder（LED）以支持长文档的生成序列对序列任务。

Apr, 2020

BERT 的多阶段文档排名

利用 BERT 模型，在多阶段排名结构中将文档排序问题分别转化为点和对分类的两个变量来解决，这是一种终端到终端的用于搜索的系统设计，可以通过控制每个管道阶段的候选人数量来权衡质量和延迟，并在 MS MARCO 和 TREC CAR 数据集上提供了与现有技术相当或更好的结果。

Oct, 2019

预训练变形金刚在文本排名中的差异性如何？

本研究分析了基于 BERT 的交叉编码器与传统 BM25 排名在段落检索任务中的效果，发现它们在相关性概念上存在重要的差异，旨在鼓励未来改进研究。

Apr, 2022

预训练变形金刚模型用于文本排名：BERT 及其它

本文主要阐述了如何将 transformers 和 self-supervised pretraining 技术应用于文本排名问题，组成了两个高级别的现代技术，即在多阶段架构中进行 reranking 的 transformer 模型和直接进行排名的密集检索技术，并对处理长文档和处理效率和效果之间的平衡这两个主题进行了分析，同时也展望了研究的未来方向。

Oct, 2020

BERT 排名行为解析

本文研究了预先训练的 BERT 在排名任务中的表现和行为，探索了在两种排名任务中优化 BERT 的几种不同方法，并实验证明了 BERT 在问题回答焦点的段落排名任务中的强有效性，以及 BERT 作为强交互式序列到序列匹配模型的事实。

Apr, 2019

使用预训练的序列到序列模型进行文档排名

通过对预训练序列到序列模型进行新的调整，使其能够用于文档排名任务，相比较于 BERT 等仅采用编码器预训练变压器架构的基于分类的排名方法，我们的方法在实验中展现出了更好的性能，并发现我们的方法在数据较少的情况下更能胜任。

Mar, 2020

BERT 的文章重新排序

本文介绍了一个基于查询的段落重排的 BERT 的简单重新实现，该系统在 TREC-CAR 数据集上处于技术先进地位，是 MS MARCO 段落检索任务排行榜中的前列，优于以前的技术领先 27%（相对于 MRR @ 10）。

Jan, 2019