使用预训练的序列到序列模型进行文档排名

Mar, 2020

使用预训练的序列到序列模型进行文档排名

Document Ranking with a Pretrained Sequence-to-Sequence Model

Rodrigo Nogueira, Zhiying Jiang, Jimmy Lin

TL;DR通过对预训练序列到序列模型进行新的调整，使其能够用于文档排名任务，相比较于BERT等仅采用编码器预训练变压器架构的基于分类的排名方法，我们的方法在实验中展现出了更好的性能，并发现我们的方法在数据较少的情况下更能胜任。

Abstract

This work proposes a novel adaptation of a pretrained sequence-to-sequence model to the task of document ranking. Our approach is fundamentally different from a commonly-adopted classification-based formulation o

发现论文，激发创造

CEDR：上下文嵌入在文档排序中的应用

该研究旨在探究如何利用预训练的上下文化语言模型（ELMo和BERT）进行即席文档排名，并提出了一种联合方法，称为CEDR（用于文档排名的上下文化嵌入），证明它优于现有的排名基线。

Apr, 2019

BERT排名行为解析

本文研究了预先训练的BERT在排名任务中的表现和行为，探索了在两种排名任务中优化BERT的几种不同方法，并实验证明了BERT在问题回答焦点的段落排名任务中的强有效性，以及BERT作为强交互式序列到序列匹配模型的事实。

Apr, 2019

BERT的多阶段文档排名

利用BERT模型，在多阶段排名结构中将文档排序问题分别转化为点和对分类的两个变量来解决，这是一种终端到终端的用于搜索的系统设计，可以通过控制每个管道阶段的候选人数量来权衡质量和延迟，并在MS MARCO和TREC CAR数据集上提供了与现有技术相当或更好的结果。

Oct, 2019

预训练变形金刚模型用于文本排名：BERT及其它

本文主要阐述了如何将transformers和self-supervised pretraining技术应用于文本排名问题，组成了两个高级别的现代技术，即在多阶段架构中进行reranking的transformer模型和直接进行排名的密集检索技术，并对处理长文档和处理效率和效果之间的平衡这两个主题进行了分析，同时也展望了研究的未来方向。

Oct, 2020

文档内级联：学习选择用于神经网络文档排序的片段

采用基于知识蒸馏的ESM模型剪枝候选文档以减少计算量，从而降低了基于ETM模型的查询延迟并提高了检索效果。

May, 2021

预训练变形金刚在文本排名中的差异性如何？

本研究分析了基于BERT的交叉编码器与传统BM25排名在段落检索任务中的效果，发现它们在相关性概念上存在重要的差异，旨在鼓励未来改进研究。

Apr, 2022

BERT排名器容易受损毁：使用对抗性文档扰动的研究

本文提出了基于梯度的算法，利用少量词语成功实现高相关或非相关文档的大幅度排名变化，同时发现 BERT-rankers 对文档的初始部分有很大的依赖性，并且在不同数据集中存在主题偏好，具有潜在的偏见。

Jun, 2022

复杂NLP在文本排名中的作用

研究发现，通过改变输入的顺序和位置信息，掩码语言模型的性能并不会受到影响；相比于句法方面，跨句子关注和更丰富的嵌入捕捉上下文的词义是BERT的优势所在。

Jul, 2022

RankT5：使用排序损失对T5进行文本排序微调

本文提出RankT5，通过两种基于T5的排名模型结构来直接输出每个查询文档对的排名分数，并通过'成对'或'列表'排列损失进行微调以优化排名表现。实验表明，利用排名损失的所提出的模型可以在不同的公共文本排名数据集上取得实质性的排名表现提高，并且当与分类损失精细调整后，模型在域外数据集上出现更好的零售排名表现。

Oct, 2022

将大型语言模型蒸馏为BERT以用于网络搜索排名的最佳实践

本研究解决了大型语言模型（LLMs）在商业搜索系统中因高成本而无法直接应用的问题。通过将LLMs的排名知识转移到更小的模型BERT上，采用持续预训练和排名损失的创新方法，研究提出了一种有效的模型训练策略。该方法已在商业网页搜索引擎中成功应用，展现出显著的效能提升。

Nov, 2024