基于嵌入式大规模检索的预训练任务

Feb, 2020

基于嵌入式大规模检索的预训练任务

Pre-training Tasks for Embedding-based Large-scale Retrieval

Wei-Cheng Chang, Felix X. Yu, Yin-Wen Chang, Yiming Yang, Sanjiv Kumar

TL;DR本文研究基于嵌入的检索模型，并探究对段落级别的预训练任务在训练强大的嵌入式Transformer模型上的关键作用。

Abstract

We consider the large-scale query-document retrieval problem: given a query (e.g., a question), return the set of relevant documents (e.g., paragraphs containing the answer) from a large document corpus. This problem is often solved in two steps. The retrieval phase first reduces the s

发现论文，激发创造

领域匹配的密集检索预训练任务

通过在65百万个合成问题和2亿个来自Reddit对话的帖子对大型bi-encoder模型进行适当的预训练，可以在信息检索和对话检索基准测试中实现比监督基准线显着更好的表现。

Jul, 2021

CODER: 通过上下文文档嵌入重新排序的有效优化框架

通过引入Contextual Document Embedding Reranking (CODER)，可以显著提高基于对比学习的密集检索模型的检索性能，特别是当更多的相关信息可用时，如在TripClick集合中观察到的情况下，可以获得大幅度的改进并取得新的最优结果。

Dec, 2021

面向可扩展嵌入式检索的逐步优化的双粒度文档表示

通过生物粒度文档表示法、稀疏嵌入与压缩感知量化等技术，采用基于深度学习的文档表示和ANN搜索技术，设计 Progressive Optimization 框架，实现了大规模的 EB 检索，并在百万级和百亿级的数据集上分别实现了高达 +4.3% 到 +17.5% 的提高检出率，同时在一个搜索平台上实现了较大的回报、回忆和CTR这些度量方面的提升。

Jan, 2022

MASTER: 多任务预训练的瓶颈掩蔽自编码器是更好的密集检索器

本文提出了一种名为MASTER的多任务预训练模型，以在压缩语义信息的同时，统一和整合多种具有不同学习目标的预训练任务，实现了语义信息与关系在稠密向量中的集成，该方法在多个大规模的文本检索数据集上都表现出优异的性能。

Dec, 2022

运用传统信息检索方法提升神经排序模型

在这篇论文中，我们探索了一种低资源替代方法，即基于词嵌入的文档检索模型，发现它在与信息检索任务上经过微调的大型Transformer模型相比具有竞争力。我们的结果表明，将TF-IDF（传统的关键词匹配方法）与浅层嵌入模型简单组合，提供了一种低成本的方法，使其在3个数据集上与复杂的神经排序模型的性能相媲美。此外，添加TF-IDF度量改进了这些任务上大规模微调模型的性能。

Aug, 2023

增强嵌入用于定制检索

信息检索中的全面检索方法被应用于大型语言模型的前提学习中，这些检索方法早期用于经典应用，但近期多用于异构且严格的应用，需要改进小K值的检索。我们提出了一种改进的密集检索方法，通过学习预训练嵌入的低秩残差适应来实现任务特定、异构且严格的检索，并在实验证明我们的方法相比于基于通用嵌入的基线有所改进。

Oct, 2023

LLM-Augmented Retrieval: 借助语言模型和文档级嵌入增强检索模型

该研究论文介绍了一种基于模型无关的文档级嵌入框架，通过大型语言模型（LLM）增强，改进了检索模型训练过程中的一些重要组件，如负采样、损失函数等。通过实现这个LLM增强的检索框架，我们显著提高了广泛使用的检索模型（如Bi-encoders和late-interaction models）的效果，并在LoTTE数据集和BEIR数据集上取得了最新的研究成果。

Apr, 2024

NV-Embed: LLM 训练通用嵌入模型的改进技术

通过引入各种架构设计和训练过程，NV-Embed模型显著提高了LLM作为多功能嵌入模型的性能，同时保持其简单性和可重现性，并取得了69.32的记录高分，在包括检索、重排序、分类、聚类和语义文本相似性任务在内的56个任务中名列第一。

May, 2024

大型语言模型作为下一代密集检索的基础：全面的实证评估

本研究解决了传统检索模型在领域准确性和推广能力方面的不足，通过对多种检索任务的全面实证研究，评估了大型语言模型（LLMs）的性能。研究发现，较大的模型和广泛的预训练能够持续提升领域准确性和数据有效性，并在零样本推广和多任务学习等方面展现出显著潜力，这为未来相关领域的研究与开发提供了重要见解。

Aug, 2024

大型语言模型作为下一代密集检索的基础：全面的实证评估

本研究针对传统检索模型在特定领域的准确性和泛化能力不足的问题，采用大型语言模型（LLMs）进行评估，探讨其在密集检索中的独特优势。研究结果表明，较大的模型和更长的预训练时间能够显著提高领域内准确性和数据效率，同时在零样本泛化、长检索等多任务学习中具有重要潜力，这为未来的研究和开发提供了有价值的见解。

Aug, 2024