大型双编码器是可推广的检索器

Dec, 2021

Large Dual Encoders Are Generalizable Retrievers

Jianmo Ni, Chen Qu, Jing Lu, Zhuyun Dai, Gustavo Hernández Ábrego...

TL;DR本文通过对双编码器进行多阶段训练，并在保持瓶颈嵌入大小不变的同时扩大了双编码器模型的规模，挑战了一种广为流传的观念，即双编码器在一个域上训练后，往往无法推广到其他域的检索任务中。结果表明，我们的双编码器模型 ——GTR，尤其是在域外泛化方面，取得了显著的检索性能提高，并且在 BEIR 数据集上明显优于现有的稀疏和密集的检索模型。最出乎意料的是，我们的消融研究发现，GTR 在数据效率方面非常高效，只需要 MS Marco 10％的监督数据即可实现最佳的跨域检索性能。

Abstract

It has been shown that dual encoders trained on one domain often fail to generalize to other domains for retrieval tasks. One widespread belief is that the bottleneck layer of a dual encoder, where the final score is simply a dot-product between a query vector and a passage vector, is

dual encoder out-of-domain generalization scaling up model size gtr data efficiency

发现论文，激发创造

跨编码器在零样本检索中的防御

本文探讨了双编码器（Bi-encoders）和交叉编码器（Cross-encoders）在领域内外的广义能力，并发现了交叉编码器的参数数量和早期查询文档的交互对检索模型的泛化能力起到了重要作用。此外，在几项任务中，交叉编码器比相似规模的双编码器表现更优异，其中最大的交叉编码器比一个最先进的双编码器超过 4 个平均点。最后，我们发现在领域外任务中，使用双编码器作为第一阶段检索器与 BM25 等更简单的检索器相比没有提供优势。

Dec, 2022

回归基础：提升密集编码器领域外检索的简单方法

通过改进训练过程，使用参数高效的方法和适当的负样本，可以提高密集编码器在训练时的泛化能力，从而在单一数据集上训练时实现有效的泛化。

Nov, 2023

低延迟检索的浅交叉编码器

我们展示了在低延迟情境下，基于较浅的变形器模型（即具有有限层数的变形器）的交叉编码器实际上比全规模模型表现更好，因为它们可以在相同的时间预算内估计更多文档的相关性。我们进一步展示，较浅的变形器模型可能受益于目前成功应用于推荐任务的广义二进制交叉熵 (gBCE) 训练方案。我们在 TREC 深度学习通过排序查询集上的实验中，展示了低延迟环境下较浅和全规模模型的显着改进。

Mar, 2024

训练多语言密集检索模型最佳实践

本研究旨在探讨如何在不同语言中使用基于转换器的双编码器设计实现单语检索，包括使用多语言变压器的交叉语言一般化能力，在多场景下使用最佳实践指南解决单语检索问题，从而为构建低资源语言的搜索应用提供指南和基础。

Apr, 2022

文本检索中的稀疏、密集和注意力表示

该研究探讨了双编码器的检索能力，并将其与稀疏词袋模型和注意力神经网络进行了比较。研究发现固定长度编码的能力存在限制，具体表现为编码维数，金标和排名较低文件之间的边际，以及文档长度。在此基础上，该研究提出了一种结合了双编码器的高效性和注意力结构的表达能力的简单神经模型，并探索了稀疏 - 密集混合模型以提高检索精度，这些模型在大规模检索中胜过强有力的替代方案。

May, 2020

GNN-encoder：通过图神经网络学习双编码器架构，用于密集通道检索

通过引入图神经网络，提出一种 GNN-encoder 模型，以改进密集表示检索模型的效率和性能，并在三个数据集上取得最新的最优效果。

Apr, 2022

面向任务的特定领域优化，用于高效和稳健的对于开放域问答的密集检索

提出了一种新的体系结构，Task-aware Specialization for dense Retrieval (TASER)，该模型通过交错共享模块和专用模块在单个编码器中实现参数共享，能够在使用密集检索模型时提高准确性并显著减少了参数数量，在五个问答数据集上实验表明，与双编码器密集检索器相比，TASER 能够在使用大约 60% 的参数的同时实现卓越的准确性。

Oct, 2022

为实体检索学习密集表示

使用双编码器模型，在相同的密集向量空间中对实体和提及进行编码，并通过近似最近邻搜索检索候选实体，从而实现实体链接。通过使用维基百科中的锚文本链接训练双编码器，该方法优于离散别名表和 BM25 基线，并且与标准 TACKBP-2010 数据集中最佳结果相当，还可以快速检索候选者，并可以很好地推广到从 Wikinews 推导出的新数据集。在建模方面，我们演示了无监督的负采矿算法在这一任务中的重要作用。

Sep, 2019

双编码器在极端多标签分类中的效果

通过研究表明，经过正确训练的标准双编码器模型在极限多标签分类问题中可以匹配或超越状态 - of-the-art 极限分类方法在 Precision@1 方面的性能，并且在可训练参数的数量上小 20 倍。

Oct, 2023

通过嵌入对齐的查询编码器蒸馏是提升密集检索器在线效率的强大基准方法

本文中，我们提出了一个简单的基线方法，使用不对称架构来提高 Dual Encoder 检索器的效率。我们发现即使使用只有两层的 BERT-based 查询编码器，通过无监督的蒸馏和适当的学生初始化，仍然可以在 BEIR 基准测试中保持 92.5％的 DE 性能。我们希望我们的研究可以鼓励社区重新评估方法复杂性和性能提升之间的权衡。

Jun, 2023