多阶段检索管道中 BERT 重新排序器的训练思考

Jan, 2021

多阶段检索管道中 BERT 重新排序器的训练思考

Rethink Training of BERT Rerankers in Multi-Stage Retrieval Pipeline

Luyu Gao, Zhuyun Dai, Jamie Callan

TL;DR本文提出了一种名为局部对比估计的方法，用于训练基于深度先前训练的语言模型的重排器，以实现更好的文本检索性能，实验证明本方法显著优于现有的基于深度两阶段模型。

Abstract

pre-trained deep language models~(LM) have advanced the state-of-the-art of text retrieval. Rerankers fine-tuned from deep LM estimates candidate relevance based on rich contextualized matching signals. Meanwhile

pre-trained deep language models text retrieval localized contrastive estimation

发现论文，激发创造

基于创新的 Bert 重新排序语言模型在语音识别中的应用

本文利用 BERT 模型重新排序自动语音识别中的 N 个最优假设，同时融合了任务特定的全局主题信息。实验表明，相较于循环神经网络和利用 BERT 计算伪对数似然分数的方法，本方法在 AMI 基准语料库上的有效性和可行性得到了证实。

Apr, 2021

HLATR：混合列表感知的 Transformer 重排序加强多阶段文本检索

本文提出 HLATR 作为一个轻量级的后续 reranking 模块，将检索和 reranking 阶段的特征结合起来，可以有效提高现有的多阶段文本检索方法的排名性能。

May, 2022

建立跨语言密集检索模型的迁移学习方法

本文介绍了 ColBERT-X，这是一个使用 XLM-RoBERTa 编码器的多重表示稠密检索模型，用于支持跨语言信息检索（CLIR）。在几种语言的自适应文件排名任务上表现出了在传统词汇 CLIR 基线之上的显着和统计上的显着改进。

Jan, 2022

CERET: 文本生成的经济外部修正

通过考虑语义稳定性、蕴涵和样本间不确定度的方法，我们提出了 CERET，以改进文本生成的质量，实验结果表明 CERET 在各种任务设置下持续优于其他方法，相对于 LLM 自排方法，我们的方法仅需其延迟的 9.4% 且更具成本效益。

Jun, 2024

自检索的长距离语言建模

本文中，我们提出了一种用于从头开始联合训练检索增强语言模型的架构和训练流程，名为 Retrieval-Pretrained Transformer（RPT），并使用四个长程语言建模任务进行了评估，横跨图书、代码和数学写作，证明了与强基线相比，RPT 改善了整体的检索质量和困惑度。

Jun, 2023

神经信息检索推理时重排反馈

本文提出了利用轻量级的推理，将 re-ranker 的命中率反馈给 retriever 的方法，从而提高检索召回率。实验证明，此方法在多个领域、语言和模态下均明显提高了检索召回率。

May, 2023

检索增强大型语言模型的查询重写

该研究介绍了一个新的 Rewrite-Retrieve-Read 框架，该框架从查询重写的角度改进了检索增强方法，并通过强化学习调整该框架的策略模型，通过开放域 QA 等下游任务进行了验证。

May, 2023

使用 TF-Ranking 中的 BERT 进行排序学习

该论文提出了一种利用 BERT 表示和 learning-to-rank 模型进行文档排序的机器学习算法。在公共基准测试中，采用这种方法可以取得更好的表现。最新的实验使用 RoBERTa 和 ELECTRA 模型，取得了较之其它方法更好的排名成绩。

Apr, 2020

使用 LoCo 和 M2-BERT 进行长上下文检索模型的基准测试和构建

为了解决长文本检索中的问题，研究人员引入了 LoCoV1 任务基准和 M2-BERT 检索编码器，通过预训练和微调方法，实现了对长文本的高效检索能力。

Feb, 2024

基于大型语言模型的零样本列表式文档重排序

在 TREC 网络搜索数据集和 MIRACL 跨语言数据集上，使用无需特定任务训练数据的 Listwise Reranker with a Large Language Model (LRL) 可以作为第一阶段和最终阶段的重新排序方法，在多层文本排序任务中取得了强大的效果。

May, 2023