Apr, 2024

LongEmbed:扩展嵌入模型以用于长上下文检索

TL;DR现代自然语言处理(NLP)应用中的嵌入模型在信息检索和大规模生成方面起着重要作用,本文探索了现有嵌入模型的上下文窗口扩展,将限制提升到 32k,而不需要额外的训练。我们通过新构建的 LongEmbed 基准测试,对目前的嵌入模型在长文本检索上的性能进行了评估,并发现有巨大的改进空间。我们实验表明训练前的扩展策略(如位置插值)可以有效地将现有嵌入模型的上下文窗口扩展多倍,无论其原始上下文是 512 还是 4k 以上。对于使用绝对位置编码(APE)的模型,我们展示了进一步微调以取得显著性能提升并严格保留短序列输入的原始行为的可能性。对于使用旋转位置嵌入(RoPE)的模型,当使用 RoPE 特定方法(如 NTK 和 SelfExtend)时,我们观察到显著的增强效果,表明 RoPE 在上下文窗口扩展方面的优越性。为了促进未来的研究,我们发布了 E5-Base-4k 和 E5-RoPE-Base 数据集,并提供了 LongEmbed 基准测试。