可扩展的嵌入:适用于 LLM 上下文长度的灵活乘数
通过可扩展嵌入实现了高质量、灵活、具有成本效益的扩展大型语言模型的上下文,通过优化架构和训练方法,具有上下文扩展的高灵活性、低成本的训练和与现有大型语言模型的兼容性,进而在长上下文语言建模和理解任务上进行综合评估,验证了可扩展嵌入作为一种有效、高效、灵活和兼容的扩展大型语言模型上下文的方法。
Feb, 2024
本文介绍了可拓展分词作为一种可选方法,可实现大语言模型(LLMs)上下文的灵活扩展,以提供更多信息。经过综合实验证明,可拓展分词是一种有效、高效、灵活和兼容的方法,可扩展 LLMs 的上下文。
Jan, 2024
我们提出了一种名为 E2-LLM 的高效和极长扩展的大型语言模型方法,通过减少计算成本并对不同样本进行增强方法来在推理时支持任意上下文长度,实验结果表明其在具有挑战性的长上下文任务中的有效性。
Jan, 2024
现代自然语言处理(NLP)应用中的嵌入模型在信息检索和大规模生成方面起着重要作用,本文探索了现有嵌入模型的上下文窗口扩展,将限制提升到 32k,而不需要额外的训练。我们通过新构建的 LongEmbed 基准测试,对目前的嵌入模型在长文本检索上的性能进行了评估,并发现有巨大的改进空间。我们实验表明训练前的扩展策略(如位置插值)可以有效地将现有嵌入模型的上下文窗口扩展多倍,无论其原始上下文是 512 还是 4k 以上。对于使用绝对位置编码(APE)的模型,我们展示了进一步微调以取得显著性能提升并严格保留短序列输入的原始行为的可能性。对于使用旋转位置嵌入(RoPE)的模型,当使用 RoPE 特定方法(如 NTK 和 SelfExtend)时,我们观察到显著的增强效果,表明 RoPE 在上下文窗口扩展方面的优越性。为了促进未来的研究,我们发布了 E5-Base-4k 和 E5-RoPE-Base 数据集,并提供了 LongEmbed 基准测试。
Apr, 2024
本文调查了扩展序列长度的技术和方法,包括架构修改和注意机制的改变等多种方法,并讨论了当前方法的局限性和未来研究方向建议,强调了序列长度对大型语言模型进一步发展的重要性。
Feb, 2024
建议一种基于连续长度外推(CLEX)的 Transformer-based Large Language Models (LLMs),可将 context window 扩展到训练序列长度的 4 倍或 8 倍,并在实际任务中表现出竞争性性能。
Oct, 2023
通过上下文学习,我们提出了一种基于上下文学习的方法,旨在提高句子嵌入的性能。我们的方法能够使大型语言模型生成高质量的句子嵌入,并且在语义文本相似度任务上表现与当前对比学习方法相当。通过调整模型大小,我们发现超过几十亿参数的模型会对语义文本相似度任务的性能造成损害,但最大的模型超过了其他模型,并在迁移任务上取得了新的最先进结果。我们还使用当前的对比学习方法对大型语言模型进行了微调,将包含我们基于提示的方法的 2.7B OPT 模型的性能超过了 4.8B ST5 的性能,在语义文本相似度任务上实现了新的最先进结果。
Jul, 2023