实现具有渐进学习的鲁棒文本检索
该研究论文介绍了一种基于模型无关的文档级嵌入框架,通过大型语言模型(LLM)增强,改进了检索模型训练过程中的一些重要组件,如负采样、损失函数等。通过实现这个 LLM 增强的检索框架,我们显著提高了广泛使用的检索模型(如 Bi-encoders 和 late-interaction models)的效果,并在 LoTTE 数据集和 BEIR 数据集上取得了最新的研究成果。
Apr, 2024
通过引入 GISTEmbed,在对比训练中通过导向模型增强批内负例选择,从而显著减少数据质量问题引入的噪声,并改善模型微调,从而提供了对规模较小模型的显著改进的框架,借助资源密集型的大型模型的能力,GISTEmbed 有可能革新高效且规模较小模型的创建方法,使得先进的 AI 技术更加可用和具有可承担性,从而在不同领域大大扩展了最先进的 AI 解决方案的影响和可及性。
Feb, 2024
通过引入各种架构设计和训练过程,NV-Embed 模型显著提高了 LLM 作为多功能嵌入模型的性能,同时保持其简单性和可重现性,并取得了 69.32 的记录高分,在包括检索、重排序、分类、聚类和语义文本相似性任务在内的 56 个任务中名列第一。
May, 2024
本文介绍了 RobustSentEmbed,这是一个自监督的句子嵌入框架,旨在改善自然语言处理任务中的泛化能力和对抗性环境中的鲁棒性。通过生成高风险对抗扰动并利用新颖的目标函数,RobustSentEmbed 能够熟练学习高质量且鲁棒的句子嵌入。实验证实了 RobustSentEmbed 优于最先进的表示方法的优越性,尤其是对于各种对抗性攻击,BERTAttack 的成功率从 75.51% 降低至 38.81%。该框架还在语义文本相似性任务和各种迁移任务中分别实现了 1.59% 和 0.23% 的改进。
Mar, 2024
通过生物粒度文档表示法、稀疏嵌入与压缩感知量化等技术,采用基于深度学习的文档表示和 ANN 搜索技术,设计 Progressive Optimization 框架,实现了大规模的 EB 检索,并在百万级和百亿级的数据集上分别实现了高达 +4.3% 到 +17.5% 的提高检出率,同时在一个搜索平台上实现了较大的回报、回忆和 CTR 这些度量方面的提升。
Jan, 2022
本研究提出了一个检索增强的框架,使用特征描述性词语作为 dense retriever,从无标注的语料库中创建训练数据,以便在与基于大型自然语言生成模型相比节省 70% 的时间内,取得优于最强基线 4.3% 的成绩。
May, 2023
通过学习可扩展且可插拔的虚拟标记,我们的方法在保持大型语言模型的原始参数的基础上,仅对这些可插入标记的嵌入进行微调,从而提高了大型语言模型的性能并保留了其普遍的生成能力。
May, 2024
本文提出了一种 PELE 方法,通过聚合出现在大规模语料库中的实体的输出表示,能够将相关语料库中的实体知识灵活有效地传输到具有不同架构的预训练语言模型中,只需要 0.2%-5% 的预计算能够在域自适应场景中从域外语料库获取知识,实验表明该方法比以前的知识增强预训练语言模型更为优秀。
Feb, 2022
通过使用合成数据和少于 1k 个训练步骤,我们引入了一种获取高质量文本嵌入的新颖简单方法。与现有方法不同,我们的方法不需要构建复杂的训练流程或依赖于常常受到任务多样性和语言覆盖性限制的人工收集的数据集。通过利用专有 LLMs 在近 100 种语言中生成大量多样化的合成数据,我们使用标准对比损失在合成数据上微调开源的只解码 LLMs。实验证明,我们的方法在高度竞争的文本嵌入基准上具有强大的性能,而不使用任何标记数据。此外,当用合成数据和标记数据的混合进行微调时,我们的模型在 BEIR 和 MTEB 基准上创造了最新的技术成果。
Dec, 2023