Nomic Embed:训练可复现的长上下文文本嵌入器
本技术报告介绍了开源多语言 E5 文本嵌入模型的训练方法和评估结果,该模型于 2023 年中期发布。提供了三种不同大小的嵌入模型(小 / 基础 / 大),在推理效率和嵌入质量之间取得平衡。训练过程遵循英文 E5 模型的方法,包括对 10 亿个多语言文本对进行对比预训练,然后在一系列标记数据集上进行微调。此外,我们引入了一种新的指令调整嵌入模型,其性能与类似规模的最先进英文模型相当。有关模型发布的信息可以在此 https 网址中找到。
Feb, 2024
现代自然语言处理(NLP)应用中的嵌入模型在信息检索和大规模生成方面起着重要作用,本文探索了现有嵌入模型的上下文窗口扩展,将限制提升到 32k,而不需要额外的训练。我们通过新构建的 LongEmbed 基准测试,对目前的嵌入模型在长文本检索上的性能进行了评估,并发现有巨大的改进空间。我们实验表明训练前的扩展策略(如位置插值)可以有效地将现有嵌入模型的上下文窗口扩展多倍,无论其原始上下文是 512 还是 4k 以上。对于使用绝对位置编码(APE)的模型,我们展示了进一步微调以取得显著性能提升并严格保留短序列输入的原始行为的可能性。对于使用旋转位置嵌入(RoPE)的模型,当使用 RoPE 特定方法(如 NTK 和 SelfExtend)时,我们观察到显著的增强效果,表明 RoPE 在上下文窗口扩展方面的优越性。为了促进未来的研究,我们发布了 E5-Base-4k 和 E5-RoPE-Base 数据集,并提供了 LongEmbed 基准测试。
Apr, 2024
通过有效的训练数据,本研究提出了使用 “原始文本改写” 任务的低成本有效方法,将现有模型的上下文窗口扩展到 32k,从而在多文档问答中实现了极高的准确性,并超越了所有同等规模的现有开源模型。
Dec, 2023
该研究描述了创造训练数据集和配方的过程,使用了一系列 exttt {arctic-embed} 文本嵌入模型(五个模型,参数范围从 22 到 334 百万,权重以 Apache-2 许可证开源)。这些模型在发布时,在 MTEB 检索排行榜上,每个模型都达到了其规模上的最先进的检索准确性,其中最大的模型 arctic-embed-l 胜过了 Cohere 的 embed-v3 和 Open AI 的 text-embed-3-large 等闭源嵌入模型。除了我们的训练配方的细节,我们还提供了几个有意义的削减研究,我们认为这是我们模型性能的原因。
May, 2024
通过 QLoRA 的微调,我们将 LLama-3-8B-Instruct 的上下文长度从 8K 扩展到 80K。整个训练周期非常高效,在一台 8xA800(80G)GPU 机器上仅需 8 小时。生成的模型在广泛的评估任务中表现出优越性能,如 NIHS、主题检索和长上下文语言理解;同时,它还很好地保留了短上下文的原始能力。这种显著的上下文扩展主要归功于由 GPT-4 生成的仅 3.5K 个合成训练样本,这表明 LLMs 具有潜在的(尽管在很大程度上被低估的)扩展原始上下文长度的能力。事实上,通过提供更多计算资源,上下文长度可以进一步扩展到 80K 之外。因此,团队将公开发布所有资源(包括数据、模型、数据生成流水线、训练代码),以便促进来自社区的未来研究:https://github.com/FlagOpen/FlagEmbedding。
Apr, 2024
我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练,我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上,我们的模型在大多数常规任务上均取得了一致的改进,并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是,通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程,70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果,我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码,并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响,包括数据混合和序列长度的训练课程 - 我们的消融实验表明,在预训练数据集中有大量长文本并不是达到强大性能的关键,我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。
Sep, 2023
本文提出了一个新颖的方法,使用少量人为监督来挖掘具有语义相关性的新鲜文档及其主题标签,并设计了一个多任务模型 - NewsEmbed,交替使用对比学习和多标签分类来推导通用文档编码器,在多个自然语言理解任务中实现了出色的性能表现。
Jun, 2021
通过引入 LongBench,对 8 个大型语言模型进行全面评估,我们发现商业模型(GPT-3.5-Turbo-16k)优于其他开源模型,但在更长的语境下仍存在困难;在较长序列上进行的缩放位置嵌入和微调,在长语境理解方面带来了实质性的改进;检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进,但性能仍落后于具有强大长上下文理解能力的模型。
Aug, 2023
本文介绍了一项关于预训练模型适应长序列输入的经验研究,并提出一种构建长上下文模型的有效方法,包括采用池化增强分块注意力替换 transformers 中的全局注意力机制、采用不同长度的遮盖跨度预测任务、使用随机串联的短文档等。最终,研究人员成功构建出具有竞争性的长文本问答模型,并在五个长文本摘要数据集上取得了新的性能最高记录。
Sep, 2022
Jina Embeddings 2 is an open-source text embedding model designed to process long documents efficiently, achieving state-of-the-art performance on various tasks and matching the performance of OpenAI's ada-002 model.
Oct, 2023