文本检索的鲁棒性排序器

Jun, 2022

Towards Robust Ranker for Text Retrieval

Yucheng Zhou, Tao Shen, Xiubo Geng, Chongyang Tao, Can Xu...

TL;DR通过使用多个检索模型作为负样本生成器，引入大规模的噪声标签和多样性负样本进行训练，提出了一种鲁棒的排序模型 R^2anker，实验结果显示该模型表现优于现有工具。

Abstract

A ranker plays an indispensable role in the de facto 'retrieval & rerank' pipeline, but its training still lags behind -- learning from moderate negatives or/and serving as an auxiliary module for a retriever. In

ranker retrieval negative generator label noise retriever distillation

发现论文，激发创造

稠密文本检索的对抗性检索 - 排序器

提出 Adversarial Retriever-Ranker（AR2），其中包括双编码器 Retrieval Model 和交叉编码器 Ranking Model，以解决当前的稠密文本检索模型面临的两个主要挑战，既快速索引和搜索，也考虑更细粒度的词级相互作用，同时为了建立负面文件，其模型训练高度依赖于负采样技术。在三个基准测试中，实验结果显示 AR2 在所有测试中 consistently and significantly outperforms 现有的关键词检索方法并 achievs 新的 state-of-the-art 结果。

Oct, 2021

神经信息检索推理时重排反馈

本文提出了利用轻量级的推理，将 re-ranker 的命中率反馈给 retriever 的方法，从而提高检索召回率。实验证明，此方法在多个领域、语言和模态下均明显提高了检索召回率。

May, 2023

扩展查询训练的排名器的惊人有效性

通过使用查询扩充和专用排名器，改进难查询的排名性能，而不牺牲其他查询的性能。在 DL-Hard 数据集上进行的广泛实验表明，使用基础和专用排名器的基于查询性能的评分方法相比于使用原始查询的基线性能，在段落排名任务上提供了高达 25% 的显著改进，并在文档排名任务中提供高达 48.4% 的改进，甚至超过了现有技术水平模型。

Apr, 2024

深度推荐算法中的合作式检索与排序模型

深度推荐系统在现代 Web 服务中得到广泛应用，然而传统的两阶段工作流存在协作限制，因此需要探索检索员和排名员之间的有效协作。

Jun, 2022

BERT 排名器容易受损毁：使用对抗性文档扰动的研究

本文提出了基于梯度的算法，利用少量词语成功实现高相关或非相关文档的大幅度排名变化，同时发现 BERT-rankers 对文档的初始部分有很大的依赖性，并且在不同数据集中存在主题偏好，具有潜在的偏见。

Jun, 2022

基于 BERT 的段落检索和排名中处理打字错误的方法

本文探讨了针对关键字错别字造成的关键字不匹配所产生的影响，针对这一问题，我们提出了简单而有效的错别字感知培训框架，实验证明该框架可以显著提高 DR 和 BERT Re-ranker 的有效性。

Aug, 2021

神经排序模型的校准与不确定性

通过分析神经网络排序器的不确定性和标定性，本文提出了一种新的基于主义预测分布的随机排名器来解决常见的对话响应排序领域中的风险问题。其中，BERT-based rankers 的标定性不稳定，而 uncertainty estimation 模型则对风险感知神经排序和预测无法回答的对话背景具有益处。

Jan, 2021

使用 Hard Negatives 优化稠密检索模型训练

本研究研究了 Dense Retrieval (DR) 模型训练中的不同采样策略，并解释了为何硬负采样优于随机采样。研究发现目前许多基于硬负采样的训练方法存在许多潜在风险，因此本文提出了 Stable Training Algorithm (STAR) 和 Query-side Training Algorithm for Directly Optimizing Ranking Performance (ADORE) 两种训练策略，并在两个公共检索基准数据集上进行了实验，结果表明这两种策略均取得了显著的改进，并且结合这两种策略可以达到最佳性能。

Apr, 2021

生成式检索中的学习排序

提出了一个称为 LTRGR 的新框架，结合了生成式检索和经典的学习 - 排序模型，通过使用段落排名损失训练自回归模型，只需要额外的训练步骤即可增强当前的生成式检索系统，并在三个公共数据集上实现了最先进的性能。

Jun, 2023

PairReranker: 自然语言生成的配对重排序

通过对三种自然语言生成任务的实证分析，提出了一种新的 NLG 后处理方法 PairReranker，并证明其能够显著提高性能及适用于 GPT-3。

Dec, 2022