通过综合评估和排行榜了解长文档排名模型的性能

Jul, 2022

通过综合评估和排行榜了解长文档排名模型的性能

Understanding Performance of Long-Document Ranking Models through Comprehensive Evaluation and Leaderboarding

Leonid Boytsov, Tianyi Lin, Fangwei Gao, Yutian Zhao, Jeffrey Huang...

TL;DR本研究综合评估了 13 个模型在排名长文档方面的功能，包括两种专用 Transformer 模型，同时分析了训练和比较这些模型的几个困难。结果表明，虽然 Robust04 和 MS MARCO 文件经常被用于长文件模型的基准测试，但我们认为它们并不特别有用。特别是在考虑到 relevant passages 的分布时，Simple FirstP Baseline 很有效。

Abstract

We carry out a comprehensive evaluation of 13 recent models for ranking of long documents using two popular collections (MS MARCO documents and Robust04). Our model zoo includes two specialized transformer models

ranking models long documents transformer models relevant passages benchmarking

发现论文，激发创造

使用 Longformer 进行 MS MARCO 文档重排任务

本文研究了使用传统信息检索方法进行初检索，然后采用神经网络再排序模型的两步文档排序，使用了适合长文档的 BERT 模型变种 Longformer 在 MS MARCO 文档再排序任务上获得了最佳性能。

Sep, 2020

使用 Transformer 高效分类长文档

本文提供了一个广泛的长文本分类的基准测试方法，包括二分类、多分类、多标签分类任务，研究发现更复杂的模型并不总是优于简单的基准模型，并且在不同数据集上表现不稳定，因此需要未来研究考虑更全面的基准模型和数据集以开发出更为稳健的模型。

Mar, 2022

使用模块化 Re-ranker 进行长文档重新排名

本文提出了一种新的长文档重新排序方法，通过利用自注意力机制和模块化 Transformer 框架建立查询到文档的交互模型，避免了编码过程中低维度表示带来的信息瓶颈，实现了从全部文档中提取重要信息的目的，并在 Robust04 和 ClueWeb09 等数据集上实现了有效的重新排序。

May, 2022

使用预训练的序列到序列模型进行文档排名

通过对预训练序列到序列模型进行新的调整，使其能够用于文档排名任务，相比较于 BERT 等仅采用编码器预训练变压器架构的基于分类的排名方法，我们的方法在实验中展现出了更好的性能，并发现我们的方法在数据较少的情况下更能胜任。

Mar, 2020

大数据环境下排名模型基准测试

通过比较 MS MARCO 和 TREC 深度学习赛道与 1990 年代的 TREC 专家检索的情况，本文探讨了评估努力的设计如何鼓励或阻碍某些结果，提出避免这些困难的最佳实践，概述了该领域的研究进展，并描述了我们对于 “健壮有用性” 的期望结束状态。

May, 2021

MuLD: 多任务长文档基准

MuLD 是一个以文档长度为 10,000 个标记的新型长文档基准，旨在测试自然语言处理任务在长文档上的性能和解决方法。研究结果表明，使用增加上下文长度的 Transformer 模型能更好地解决该基准中的任务，这为进一步研究提供了启示。

Feb, 2022

预训练变形金刚在文本排名中的差异性如何？

本研究分析了基于 BERT 的交叉编码器与传统 BM25 排名在段落检索任务中的效果，发现它们在相关性概念上存在重要的差异，旨在鼓励未来改进研究。

Apr, 2022

稀疏标签的浅层池化

研究发现，使用神经系统排序后的检索结果往往比标准答案更受欢迎，表现出更好的排名表现。同样对于算法排名比较，建议使用最佳答案或最受欢迎的答案进行评价和持续改进。

Aug, 2021

BERT 的多阶段文档排名

利用 BERT 模型，在多阶段排名结构中将文档排序问题分别转化为点和对分类的两个变量来解决，这是一种终端到终端的用于搜索的系统设计，可以通过控制每个管道阶段的候选人数量来权衡质量和延迟，并在 MS MARCO 和 TREC CAR 数据集上提供了与现有技术相当或更好的结果。

Oct, 2019

驻足于起始处：语言模型如何嵌入长篇文档以进行稠密检索

这项研究调查了 Transformer-based 模型在文本表征学习中的位置偏差存在情况，特别是在网络文档检索的背景下。我们基于先前研究的基础上，拓展了关于因果性语言模型输入序列中信息丢失的问题，将其应用于表征学习领域。我们在编码器 - 解码器模型的各个训练阶段，包括语言模型预训练、对比度预训练和对比度微调中，研究了位置偏差。通过对 MS-MARCO 文档集的实验发现，在对比度预训练之后，该模型已经生成了能够更好地捕捉输入早期内容的嵌入向量，而微调进一步加剧了这种效果。

Apr, 2024