LongEmbed：扩展嵌入模型以用于长上下文检索

Apr, 2024

LongEmbed：扩展嵌入模型以用于长上下文检索

LongEmbed: Extending Embedding Models for Long Context Retrieval

Dawei Zhu, Liang Wang, Nan Yang, Yifan Song, Wenhao Wu...

TL;DR现代自然语言处理（NLP）应用中的嵌入模型在信息检索和大规模生成方面起着重要作用，本文探索了现有嵌入模型的上下文窗口扩展，将限制提升到32k，而不需要额外的训练。我们通过新构建的LongEmbed基准测试，对目前的嵌入模型在长文本检索上的性能进行了评估，并发现有巨大的改进空间。我们实验表明训练前的扩展策略（如位置插值）可以有效地将现有嵌入模型的上下文窗口扩展多倍，无论其原始上下文是512还是4k以上。对于使用绝对位置编码（APE）的模型，我们展示了进一步微调以取得显著性能提升并严格保留短序列输入的原始行为的可能性。对于使用旋转位置嵌入（RoPE）的模型，当使用RoPE特定方法（如NTK和SelfExtend）时，我们观察到显著的增强效果，表明RoPE在上下文窗口扩展方面的优越性。为了促进未来的研究，我们发布了E5-Base-4k和E5-RoPE-Base数据集，并提供了LongEmbed基准测试。

Abstract

embedding models play a pivot role in modern NLP applications such as IR and RAG. While the context limit of LLMs has been pushed beyond 1 million tokens, embedding models are still confined to a narrow context w