可扩展的嵌入：适用于 LLM 上下文长度的灵活乘数

Feb, 2024

可扩展的嵌入：适用于 LLM 上下文长度的灵活乘数

Extensible Embedding: A Flexible Multipler For LLM's Context Length

Ninglu Shao, Shitao Xiao, Zheng Liu, Peitian Zhang

TL;DR通过利用高信息密度的紧凑输入单元，可实现对大范围上下文的访问，使得可拓展嵌入成为高效、灵活且兼容的方法来扩展大语言模型的上下文。

Abstract

large language models (LLMs) call for extension of context to handle many critical applications. However, the existing approaches are prone to expensive costs and inferior quality of context extension. In this wo

large language models extensible embedding context extension flexibility cost-effectiveness

发现论文，激发创造

BGE 地标嵌入：用于检索增强的长上下文大语言模型的无分块嵌入方法

通过可扩展嵌入实现了高质量、灵活、具有成本效益的扩展大型语言模型的上下文，通过优化架构和训练方法，具有上下文扩展的高灵活性、低成本的训练和与现有大型语言模型的兼容性，进而在长上下文语言建模和理解任务上进行综合评估，验证了可扩展嵌入作为一种有效、高效、灵活和兼容的扩展大型语言模型上下文的方法。

Feb, 2024

通过可扩展的分词技术灵活扩展大型语言模型的上下文

本文介绍了可拓展分词作为一种可选方法，可实现大语言模型（LLMs）上下文的灵活扩展，以提供更多信息。经过综合实验证明，可拓展分词是一种有效、高效、灵活和兼容的方法，可扩展 LLMs 的上下文。

Jan, 2024

E^2-LLM：大型语言模型的高效和极端长度扩展

我们提出了一种名为 E2-LLM 的高效和极长扩展的大型语言模型方法，通过减少计算成本并对不同样本进行增强方法来在推理时支持任意上下文长度，实验结果表明其在具有挑战性的长上下文任务中的有效性。

Jan, 2024

LongEmbed：扩展嵌入模型以用于长上下文检索

现代自然语言处理（NLP）应用中的嵌入模型在信息检索和大规模生成方面起着重要作用，本文探索了现有嵌入模型的上下文窗口扩展，将限制提升到 32k，而不需要额外的训练。我们通过新构建的 LongEmbed 基准测试，对目前的嵌入模型在长文本检索上的性能进行了评估，并发现有巨大的改进空间。我们实验表明训练前的扩展策略（如位置插值）可以有效地将现有嵌入模型的上下文窗口扩展多倍，无论其原始上下文是 512 还是 4k 以上。对于使用绝对位置编码（APE）的模型，我们展示了进一步微调以取得显著性能提升并严格保留短序列输入的原始行为的可能性。对于使用旋转位置嵌入（RoPE）的模型，当使用 RoPE 特定方法（如 NTK 和 SelfExtend）时，我们观察到显著的增强效果，表明 RoPE 在上下文窗口扩展方面的优越性。为了促进未来的研究，我们发布了 E5-Base-4k 和 E5-RoPE-Base 数据集，并提供了 LongEmbed 基准测试。

Apr, 2024

用户 - LLM: 基于用户嵌入的高效 LLM 语境化

利用用户嵌入来上下文化大型语言模型，实现显著性能提升。

Feb, 2024

超越极限：大型语言模型中扩展上下文长度的技术综述

本文调查了扩展序列长度的技术和方法，包括架构修改和注意机制的改变等多种方法，并讨论了当前方法的局限性和未来研究方向建议，强调了序列长度对大型语言模型进一步发展的重要性。

Feb, 2024

CLEX: 大型语言模型的连续长度外推

建议一种基于连续长度外推（CLEX）的 Transformer-based Large Language Models (LLMs)，可将 context window 扩展到训练序列长度的 4 倍或 8 倍，并在实际任务中表现出竞争性性能。

Oct, 2023

利用大型语言模型扩展句子嵌入

通过上下文学习，我们提出了一种基于上下文学习的方法，旨在提高句子嵌入的性能。我们的方法能够使大型语言模型生成高质量的句子嵌入，并且在语义文本相似度任务上表现与当前对比学习方法相当。通过调整模型大小，我们发现超过几十亿参数的模型会对语义文本相似度任务的性能造成损害，但最大的模型超过了其他模型，并在迁移任务上取得了新的最先进结果。我们还使用当前的对比学习方法对大型语言模型进行了微调，将包含我们基于提示的方法的 2.7B OPT 模型的性能超过了 4.8B ST5 的性能，在语义文本相似度任务上实现了新的最先进结果。

Jul, 2023

通过基于大型语言模型的文本补充和重写增强嵌入性能

利用大型语言模型丰富和重写输入文本，改善嵌入模型的性能，并在特定领域取得显著改进。

Apr, 2024

LLM 或许为 LongLM: 无需调整自我延伸 LLM 上下文窗口

通过自扩展方法，利用现有的大型语言模型的内在能力来处理长文本，并延伸其上下文窗口，以有效应对长输入序列。

Jan, 2024