面向语料库的无监督语言模型预训练用于密集文本检索

Aug, 2021

面向语料库的无监督语言模型预训练用于密集文本检索

Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval

Luyu Gao, Jamie Callan

TL;DR本文提出了coCondenser方法，将Condenser预训练架构与无监督语料级对比损失相结合，减轻了密集检索器对大规模训练数据和数据工程的依赖，并通过实验表明，该方法具有与RocketQA相当的性能。

Abstract

Recent research demonstrates the effectiveness of using fine-tuned language models~(LM) for dense retrieval. However, dense retrievers are hard to train, typically requiring heavily engineered fine-tuning pipelin

发现论文，激发创造

用于开放式领域问答的密集式检索

本研究展示了如何使用密集向量表示实现开放领域的问答，通过一个简单的双编码框架，通过从一小部分问题和段落中学习嵌入来实现检索，并在多个开放域QA基准测试中超越了传统的基于TF-IDF或BM25的方法，为终端QA系统的最新性能奠定了基础。

Apr, 2020

稠密通道检索器的复制研究

本研究对Karpukhin等人于2020年提出的基于稠密编码的全域问答模型（DPR）进行了复制研究，其中发现原作者低估了BM25基准检索的有效性。我们通过改进的答案跨度评分技术，使用与原论文相同的模型获得更好的端到端问题答案准确性。

Apr, 2021

Condenser: 用于密集检索的预训练模型架构

该论文提出了一种基于 Condenser 的 Transformer 架构，可以提高标准 LM 在文本检索和相似性任务上的效果。

Apr, 2021

突出短语感知的密集检索：密集检索器是否能模仿稀疏检索器？

介绍了一种称为Salient Phrase Aware Retriever (SPAR)的密集型检索器，在保留稀疏模型的词法匹配能力的同时，通过加入类似于稀疏模型的词汇模型Lambda来提高其检索性能。SPAR在多个任务上表现出卓越性能，包括问答数据集，MS MARCO段落检索以及EntityQuestions和BEIR评估。

Oct, 2021

无监督对比学习密集信息检索

本文介绍一种无监督训练的密集感知器，使用对比学习 (contrastive learning) 的方法，提高了信息检索的性能，并在多语言检索中表现出强大的跨语言转移能力。

Dec, 2021

通过桥接训练-推理差距实现密集短语检索

本研究探讨了如何通过有效验证缩小训练与检索之间的差距并提高稠密检索的性能，在密集短语检索中取得了2~3个关键短语检索准确度和2~4个段落检索准确度的提升。

Oct, 2022

增强嵌入用于定制检索

信息检索中的全面检索方法被应用于大型语言模型的前提学习中，这些检索方法早期用于经典应用，但近期多用于异构且严格的应用，需要改进小K值的检索。我们提出了一种改进的密集检索方法，通过学习预训练嵌入的低秩残差适应来实现任务特定、异构且严格的检索，并在实验证明我们的方法相比于基于通用嵌入的基线有所改进。

Oct, 2023

大型语言模型作为下一代密集检索的基础：全面的实证评估

本研究解决了传统检索模型在领域准确性和推广能力方面的不足，通过对多种检索任务的全面实证研究，评估了大型语言模型（LLMs）的性能。研究发现，较大的模型和广泛的预训练能够持续提升领域准确性和数据有效性，并在零样本推广和多任务学习等方面展现出显著潜力，这为未来相关领域的研究与开发提供了重要见解。

Aug, 2024

大型语言模型作为下一代密集检索的基础：全面的实证评估

本研究针对传统检索模型在特定领域的准确性和泛化能力不足的问题，采用大型语言模型（LLMs）进行评估，探讨其在密集检索中的独特优势。研究结果表明，较大的模型和更长的预训练时间能够显著提高领域内准确性和数据效率，同时在零样本泛化、长检索等多任务学习中具有重要潜力，这为未来的研究和开发提供了有价值的见解。

Aug, 2024

通过指令调优的无监督文本表示学习用于零-shot密集检索

本研究解决了密集检索系统对标注数据的依赖问题，提出了一种通过指令调优的预训练编码器-解码器大语言模型进行无监督文本表示学习的新方法。研究表明，通过生成相关的合成查询，可以增强语料库表示，从而在低资源设置下显著改善零-shot检索性能。

Sep, 2024