基于嵌入式大规模检索的预训练任务
通过在65百万个合成问题和2亿个来自Reddit对话的帖子对大型bi-encoder模型进行适当的预训练,可以在信息检索和对话检索基准测试中实现比监督基准线显着更好的表现。
Jul, 2021
通过引入Contextual Document Embedding Reranking (CODER),可以显著提高基于对比学习的密集检索模型的检索性能,特别是当更多的相关信息可用时,如在TripClick集合中观察到的情况下,可以获得大幅度的改进并取得新的最优结果。
Dec, 2021
通过生物粒度文档表示法、稀疏嵌入与压缩感知量化等技术,采用基于深度学习的文档表示和ANN搜索技术,设计 Progressive Optimization 框架,实现了大规模的 EB 检索,并在百万级和百亿级的数据集上分别实现了高达 +4.3% 到 +17.5% 的提高检出率,同时在一个搜索平台上实现了较大的回报、回忆和CTR这些度量方面的提升。
Jan, 2022
本文提出了一种名为MASTER的多任务预训练模型,以在压缩语义信息的同时,统一和整合多种具有不同学习目标的预训练任务,实现了语义信息与关系在稠密向量中的集成,该方法在多个大规模的文本检索数据集上都表现出优异的性能。
Dec, 2022
在这篇论文中,我们探索了一种低资源替代方法,即基于词嵌入的文档检索模型,发现它在与信息检索任务上经过微调的大型Transformer模型相比具有竞争力。我们的结果表明,将TF-IDF(传统的关键词匹配方法)与浅层嵌入模型简单组合,提供了一种低成本的方法,使其在3个数据集上与复杂的神经排序模型的性能相媲美。此外,添加TF-IDF度量改进了这些任务上大规模微调模型的性能。
Aug, 2023
信息检索中的全面检索方法被应用于大型语言模型的前提学习中,这些检索方法早期用于经典应用,但近期多用于异构且严格的应用,需要改进小K值的检索。我们提出了一种改进的密集检索方法,通过学习预训练嵌入的低秩残差适应来实现任务特定、异构且严格的检索,并在实验证明我们的方法相比于基于通用嵌入的基线有所改进。
Oct, 2023
该研究论文介绍了一种基于模型无关的文档级嵌入框架,通过大型语言模型(LLM)增强,改进了检索模型训练过程中的一些重要组件,如负采样、损失函数等。通过实现这个LLM增强的检索框架,我们显著提高了广泛使用的检索模型(如Bi-encoders和late-interaction models)的效果,并在LoTTE数据集和BEIR数据集上取得了最新的研究成果。
Apr, 2024
通过引入各种架构设计和训练过程,NV-Embed模型显著提高了LLM作为多功能嵌入模型的性能,同时保持其简单性和可重现性,并取得了69.32的记录高分,在包括检索、重排序、分类、聚类和语义文本相似性任务在内的56个任务中名列第一。
May, 2024
本研究解决了传统检索模型在领域准确性和推广能力方面的不足,通过对多种检索任务的全面实证研究,评估了大型语言模型(LLMs)的性能。研究发现,较大的模型和广泛的预训练能够持续提升领域准确性和数据有效性,并在零样本推广和多任务学习等方面展现出显著潜力,这为未来相关领域的研究与开发提供了重要见解。
Aug, 2024
本研究针对传统检索模型在特定领域的准确性和泛化能力不足的问题,采用大型语言模型(LLMs)进行评估,探讨其在密集检索中的独特优势。研究结果表明,较大的模型和更长的预训练时间能够显著提高领域内准确性和数据效率,同时在零样本泛化、长检索等多任务学习中具有重要潜力,这为未来的研究和开发提供了有价值的见解。
Aug, 2024