预训练变形金刚在文本排名中的差异性如何？

Apr, 2022

预训练变形金刚在文本排名中的差异性如何？

How Different are Pre-trained Transformers for Text Ranking?

David Rau, Jaap Kamps

TL;DR本研究分析了基于BERT的交叉编码器与传统BM25排名在段落检索任务中的效果，发现它们在相关性概念上存在重要的差异，旨在鼓励未来改进研究。

Abstract

In recent years, large pre-trained transformers have led to substantial gains in performance over traditional retrieval models and feedback approaches. However, these results are primarily based on the ms marco/trec dee

发现论文，激发创造

BERT的文章重新排序

本文介绍了一个基于查询的段落重排的BERT的简单重新实现，该系统在TREC-CAR数据集上处于技术先进地位，是MS MARCO段落检索任务排行榜中的前列，优于以前的技术领先27%（相对于MRR @ 10）。

Jan, 2019

BERT排名行为解析

本文研究了预先训练的BERT在排名任务中的表现和行为，探索了在两种排名任务中优化BERT的几种不同方法，并实验证明了BERT在问题回答焦点的段落排名任务中的强有效性，以及BERT作为强交互式序列到序列匹配模型的事实。

Apr, 2019

对BERT在段落重新排序中的成功与失败的调查

通过对MS MARCO段落重新排序数据集的实证研究，分析fine-tuned BERT模型的结果，探讨BERT在检索方面成功和失败的潜在原因及其性能中成功的细节

May, 2019

基于嵌入式大规模检索的预训练任务

本文研究基于嵌入的检索模型，并探究对段落级别的预训练任务在训练强大的嵌入式Transformer模型上的关键作用。

Feb, 2020

使用预训练的序列到序列模型进行文档排名

通过对预训练序列到序列模型进行新的调整，使其能够用于文档排名任务，相比较于BERT等仅采用编码器预训练变压器架构的基于分类的排名方法，我们的方法在实验中展现出了更好的性能，并发现我们的方法在数据较少的情况下更能胜任。

Mar, 2020

预训练变形金刚模型用于文本排名：BERT及其它

本文主要阐述了如何将transformers和self-supervised pretraining技术应用于文本排名问题，组成了两个高级别的现代技术，即在多阶段架构中进行reranking的transformer模型和直接进行排名的密集检索技术，并对处理长文档和处理效率和效果之间的平衡这两个主题进行了分析，同时也展望了研究的未来方向。

Oct, 2020

CoRT: 基于Transformer的互补排名

本论文提出了一种简单的神经第一阶段排序模型CoRT，通过利用预训练语言模型（如BERT）的上下文表示来补充基于术语的排名函数，从而在不影响查询时间的情况下提高候选集的召回率。使用MS MARCO数据集，展示了CoRT能够显著提高候选集的召回率，从而使得后续的重新排名器可以通过更少的候选集获得更好的结果。此外，我们还展示了使用CoRT进行段落检索具有惊人的低延迟。

Oct, 2020

神经排序模型的校准与不确定性

通过分析神经网络排序器的不确定性和标定性，本文提出了一种新的基于主义预测分布的随机排名器来解决常见的对话响应排序领域中的风险问题。其中，BERT-based rankers的标定性不稳定，而uncertainty estimation模型则对风险感知神经排序和预测无法回答的对话背景具有益处。

Jan, 2021

RankT5：使用排序损失对T5进行文本排序微调

本文提出RankT5，通过两种基于T5的排名模型结构来直接输出每个查询文档对的排名分数，并通过'成对'或'列表'排列损失进行微调以优化排名表现。实验表明，利用排名损失的所提出的模型可以在不同的公共文本排名数据集上取得实质性的排名表现提高，并且当与分类损失精细调整后，模型在域外数据集上出现更好的零售排名表现。

Oct, 2022

将大型语言模型蒸馏为BERT以用于网络搜索排名的最佳实践

本研究解决了大型语言模型（LLMs）在商业搜索系统中因高成本而无法直接应用的问题。通过将LLMs的排名知识转移到更小的模型BERT上，采用持续预训练和排名损失的创新方法，研究提出了一种有效的模型训练策略。该方法已在商业网页搜索引擎中成功应用，展现出显著的效能提升。

Nov, 2024