NV-Embed: LLM 训练通用嵌入模型的改进技术
通过上下文学习,我们提出了一种基于上下文学习的方法,旨在提高句子嵌入的性能。我们的方法能够使大型语言模型生成高质量的句子嵌入,并且在语义文本相似度任务上表现与当前对比学习方法相当。通过调整模型大小,我们发现超过几十亿参数的模型会对语义文本相似度任务的性能造成损害,但最大的模型超过了其他模型,并在迁移任务上取得了新的最先进结果。我们还使用当前的对比学习方法对大型语言模型进行了微调,将包含我们基于提示的方法的2.7B OPT模型的性能超过了4.8B ST5的性能,在语义文本相似度任务上实现了新的最先进结果。
Jul, 2023
通过比较经典词嵌入技术与大型语言模型的词嵌入之间的潜在向量语义,系统地调查了大型语言模型是否在表现上与经典编码模型存在显著差异。结果显示,大型语言模型往往比经典模型更紧密地聚集语义相关的词,并在Bigger Analogy Test Set (BATS)上取得更高的平均准确率。此外,一些大型语言模型的词嵌入与相对较轻的句子级BERT (SBERT)模型相似。
Feb, 2024
该研究论文介绍了一种基于模型无关的文档级嵌入框架,通过大型语言模型(LLM)增强,改进了检索模型训练过程中的一些重要组件,如负采样、损失函数等。通过实现这个LLM增强的检索框架,我们显著提高了广泛使用的检索模型(如Bi-encoders和late-interaction models)的效果,并在LoTTE数据集和BEIR数据集上取得了最新的研究成果。
Apr, 2024
我们引入了LLM2Vec,这是一种简单的无监督方法,可以将任何解码器模型转换为强大的文本编码器,通过三个简单步骤:启用双向注意机制,掩码下一个标记预测和无监督对比学习,在英语词和序列级任务中,LLM2Vec在词级任务上远远超过编码器模型,在Massive Text Embeddings Benchmark (MTEB)中获得了新的无监督最新性能,通过与有监督的对比学习相结合,我们在MTEB上实现了使用公开数据训练的模型的最新性能。
Apr, 2024
现代自然语言处理(NLP)应用中的嵌入模型在信息检索和大规模生成方面起着重要作用,本文探索了现有嵌入模型的上下文窗口扩展,将限制提升到32k,而不需要额外的训练。我们通过新构建的LongEmbed基准测试,对目前的嵌入模型在长文本检索上的性能进行了评估,并发现有巨大的改进空间。我们实验表明训练前的扩展策略(如位置插值)可以有效地将现有嵌入模型的上下文窗口扩展多倍,无论其原始上下文是512还是4k以上。对于使用绝对位置编码(APE)的模型,我们展示了进一步微调以取得显著性能提升并严格保留短序列输入的原始行为的可能性。对于使用旋转位置嵌入(RoPE)的模型,当使用RoPE特定方法(如NTK和SelfExtend)时,我们观察到显著的增强效果,表明RoPE在上下文窗口扩展方面的优越性。为了促进未来的研究,我们发布了E5-Base-4k和E5-RoPE-Base数据集,并提供了LongEmbed基准测试。
Apr, 2024
通过对最近大规模文本嵌入基准测试中表现最好的文本嵌入进行详细比较和分析,本文概述了通用文本嵌入模型的最新进展,突出了该领域的关键贡献和局限,并提出了潜在的灵感未来研究方向。
May, 2024
本研究解决了传统检索模型在领域准确性和推广能力方面的不足,通过对多种检索任务的全面实证研究,评估了大型语言模型(LLMs)的性能。研究发现,较大的模型和广泛的预训练能够持续提升领域准确性和数据有效性,并在零样本推广和多任务学习等方面展现出显著潜力,这为未来相关领域的研究与开发提供了重要见解。
Aug, 2024
本研究针对传统检索模型在特定领域的准确性和泛化能力不足的问题,采用大型语言模型(LLMs)进行评估,探讨其在密集检索中的独特优势。研究结果表明,较大的模型和更长的预训练时间能够显著提高领域内准确性和数据效率,同时在零样本泛化、长检索等多任务学习中具有重要潜力,这为未来的研究和开发提供了有价值的见解。
Aug, 2024
本研究解决了基于大型语言模型(LLM)的嵌入模型设计效果不确定的问题。通过在相同数据集上进行大量实验,发现没有一种通用的设计能够在所有任务中都表现最佳,并提出了一种新的多层可训练池化策略,在文本相似性和信息检索任务中表现优于现有方法。这项工作为LLM嵌入模型的有效训练策略提供了新的见解。
Sep, 2024
本研究解决了基于大语言模型(LLM)的嵌入模型设计的有效性问题,探索不同池化和注意力策略的影响。通过对一系列使用相同训练数据和基础模型的嵌入模型进行大规模实验,发现虽然双向注意力和可训练池化层在文本相似性和信息检索任务中表现优异,但在聚类和分类任务中并不显著优于简单设计。此外,提出的新型多层可训练池化策略在文本相似性和检索任务中展现出统计上的优势,提供了有效的训练策略洞察。
Sep, 2024