LaPraDoR：无监督的预训练密集型检索器用于零样例文本检索

ACLMar, 2022

LaPraDoR：无监督的预训练密集型检索器用于零样例文本检索

LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text Retrieval

Canwen Xu, Daya Guo, Nan Duan, Julian McAuley

TL;DR本文提出了 LaPraDoR，这是一种经过预训练的双塔密集检索器，不需要任何监督数据进行训练。我们使用迭代对比学习 (ICoL) 以及词库增强的密集检索 (LEDR) 提高检索准确性，并且在 BEIR 基准测试中取得了最新的最优表现。

Abstract

In this paper, we propose laprador, a pretrained dual-tower dense retriever that does not require any supervised data for training. Specifically, we first present →

laprador dense retriever iterative contrastive learning lexicon-enhanced dense retrieval beir benchmark

发现论文，激发创造

面向大规模检索的词库增强密集检索器 (LED)

本研究提出一种基于知识蒸馏的方法，将富有知识的词典嵌入模型对齐到密集检索模型中，从而在第一阶段检索中取得稳定且显著的提高。在三组公开数据集上的实验证明了该模型的有效性，并且与标准排名器蒸馏相结合可以进一步提高检索效果。

Aug, 2022

词汇加速的密集检索

LADR 是一种简单而有效的方法，通过利用词法检索技术来提高现有的密集检索模型的效率，同时不影响检索效果，建立了一种新的近似 k 最近邻技术的密集检索效率 - 效果 Pareto 边界。

Jul, 2023

面向语料库的无监督语言模型预训练用于密集文本检索

本文提出了 coCondenser 方法，将 Condenser 预训练架构与无监督语料级对比损失相结合，减轻了密集检索器对大规模训练数据和数据工程的依赖，并通过实验表明，该方法具有与 RocketQA 相当的性能。

Aug, 2021

AugTriever：可扩展的数据增强无监督密集检索

本文提出了无需注释的可扩展伪查询文档对训练方法，包括查询提取和转化查询生成两种。通过使用这些方法，研究展示出比其他方法更好的检索表现。

Dec, 2022

UnifieR: 大规模信息检索统一检索器

本论文提出了一种名为 UnifieR 的学习框架，它将基于预训练语言模型的密集向量和基于词汇表的检索统一在一个模型中，并在多个基准测试中验证了其有效性和可转移性。

May, 2022

无监督对比学习密集信息检索

本文介绍一种无监督训练的密集感知器，使用对比学习 (contrastive learning) 的方法，提高了信息检索的性能，并在多语言检索中表现出强大的跨语言转移能力。

Dec, 2021

构建更好的基于大型语言模型的稠密检索模型

提出了一种新颖的方法 LLaRA（LLM 适应于密集检索），它作为 LLM 的事后适应工具，用于密集检索应用。LLaRA 包括两个预处理任务：EBAE (基于嵌入的自编码) 和 EBAR (基于嵌入的自回归)，其中来自 LLM 的文本嵌入用于重建输入句子的标记并预测下一句的标记。LLaRA 简单、轻量且高效，应用于 LLMaMA-2-7B（基础）模型，在维基百科语料库上大大提升了模型对各种密集检索基准（如 MSMARCO 和 BEIR）的微调性能。

Dec, 2023

UDAPDR：基于 LLM 加速的无监督域自适应及 Reranker 蒸馏方法

通过使用大型语言模型 (LLMs) 生成大量合成的查询，可以在不使用大量标记的数据的情况下，有效地优化实现信息检索任务，同时消除因为领域的转变而导致真实世界应用效力降低的问题。

Mar, 2023

回归基础：提升密集编码器领域外检索的简单方法

通过改进训练过程，使用参数高效的方法和适当的负样本，可以提高密集编码器在训练时的泛化能力，从而在单一数据集上训练时实现有效的泛化。

Nov, 2023

学习检索：如何有效高效地训练密集检索模型

信息检索一直是信息检索研究的重点之一。近年来，提出了 Dense Retrieval（DR）技术来缓解诸如词汇不匹配问题等固有缺陷，但是绝大多数现有 DR 模型的培训都依赖于从语料库中抽样负实例来优化成对损失函数，即不公平的样本，因此提出了 Learning To Retrieve（LTRe）培训技术，它通过预先构建文档索引，并在每个培训迭代中在没有负样本采样的情况下执行全检索，从而在整个语料库中检索相关文档，实验表明，LTRe 在有效性方面明显优于所有有竞争力的稀疏和密集基线。它甚至在合理的延迟限制下比 BM25-BERT 级联系统表现更好。

Oct, 2020