实现具有渐进学习的鲁棒文本检索
本文提出两种具有不同目标函数的学习模型,用于基于查询-文档相关性信息学习单词表示,实验结果表明相对于Word2vec等基于词语相似度的模型,基于相关性的单词嵌入模型在查询扩展和查询分类等信息检索任务上具有显著优越性。
May, 2017
本文研究了使用对比方式的自监督无监督训练大规模文本向量化,得到的向量在文本与代码搜索中表现优异,相较于之前使用监督学习方法的实验结果,相对提升了4%到23.4%不等。
Jan, 2022
信息检索中的全面检索方法被应用于大型语言模型的前提学习中,这些检索方法早期用于经典应用,但近期多用于异构且严格的应用,需要改进小K值的检索。我们提出了一种改进的密集检索方法,通过学习预训练嵌入的低秩残差适应来实现任务特定、异构且严格的检索,并在实验证明我们的方法相比于基于通用嵌入的基线有所改进。
Oct, 2023
通过引入各种架构设计和训练过程,NV-Embed模型显著提高了LLM作为多功能嵌入模型的性能,同时保持其简单性和可重现性,并取得了69.32的记录高分,在包括检索、重排序、分类、聚类和语义文本相似性任务在内的56个任务中名列第一。
May, 2024
通过对最近大规模文本嵌入基准测试中表现最好的文本嵌入进行详细比较和分析,本文概述了通用文本嵌入模型的最新进展,突出了该领域的关键贡献和局限,并提出了潜在的灵感未来研究方向。
May, 2024
本文研究如何在计算优化的情况下对文本嵌入模型进行对比训练,通过使用一系列预训练的只有解码器的语言模型来产生最佳的模型配置、数据量和微调方法,从而适应不同的计算预算级别。我们通过广泛的实验得到了这些结论,可以帮助从业者为他们的嵌入模型做出明智的设计选择。具体而言,我们的发现表明,完全微调和低秩适应微调分别在较低和较高的计算预算下产生最佳模型。
Jun, 2024
评估公开可用模型及其领域自适应变体所得到的多种句子嵌入,通过对点检索准确性和置信区间(95%)的评估,建立了一种获取不同嵌入相似度阈值的系统方法并发现fine-tuning可提高点检索准确性和置信区间,并且结合预训练可以使置信区间更加紧密,同时通过分析和报告top-K、正确句子和随机句子相似度的分布重叠,与检索准确性和相似度阈值之间的显著相关性,分析了检索准确性变化是否可归因于嵌入的各向同性,结果显示各向同性不能归因于更好的检索性能,然而,改进检索准确性的领域自适应也改善了各向同性,并且我们证明领域自适应使特定领域嵌入与一般领域嵌入更加分离。
Jun, 2024
通过分析长序列模型的嵌入数据,我们发现其文本嵌入与关键标记是可以对齐的,并进一步通过调整首个主要成分,实现文本嵌入与关键标记的对齐。这一发现拥有广泛应用潜力,可用于稀疏检索方法的改进和模糊概念的理解。
Jun, 2024