扩展上下文窗口的逐层分组局部全局注意力
现代大型语言模型(LLMs)通常使用固定的上下文长度进行训练,但这限制了它们在评估时能处理的输入序列的长度。为了在训练时间上下文长度之外的较长序列上使用这些模型,可以采用不断增长的上下文长度外推方法。本文对现有的上下文长度外推方法进行了广泛调研,并介绍了一些新的设计,特别是一种用于修改位置编码基础的截断策略。我们使用三个新的评估任务(FreeFormQA,AlteredNumericQA 和 LongChat-Lines)以及困惑度进行了测试,并将这些任务作为公共数据集发布在 HuggingFace 上。我们发现线性标度是扩展上下文长度的最佳方法,并且显示在评估时使用更长的标度可以获得进一步的收益。我们还发现在截断基础中存在有希望的推测能力。为了支持进一步的研究,我们发布了三个新的 13B 参数长上下文模型,名为 Giraffe:从基础 LLaMA-13B 训练的 4k 和 16k 上下文模型,以及从基础 LLaMA2-13B 训练的 32k 上下文模型。我们还发布了复制我们结果的代码。
Aug, 2023
Fovea Transformer 是一种以长 - context 为中心的 Transformer 模型,通过在输入序列中构建一个多尺度树来提高模型对全局依赖性的捕捉能力,并在长 - context 摘要任务上取得了最先进的性能。
Nov, 2023
本研究通过大规模的控制实验,分析了不同的长距离注意力机制,研究发现,即使使用相同的预训练数据集与微调过程,采用简单的局部窗口注意力机制仍然能够胜任大部分任务,而且采用分离的局部注意力机制可以构建一个更为简单和高效的长文档问答模型,达到与 Longformer 半数的预训练计算相匹配的性能。
Dec, 2021
本文介绍了 Hyena,一种亚二次的 attention 替代方法,它通过交错的启发式参数化长卷积和数据控制开关的方式进行构建,能够有效地解决 Transformers 中 quadratic cost 的问题,并且在大规模自然语言处理任务中实现了 Transformer 模型一致的精度,同时减少了 20% 的训练计算资源。
Feb, 2023
本文研究了在长文本摘要场景中采用限定范围的模型是否能够提供比具有全局范围的模型更高的性能,并探讨了在不同层次(从句子到文档)的三种文本局部性,实验结果表明,采用局部化建模策略的模型具有更好的性能。
May, 2022
本研究提出了 LSG attention 机制以解决 Transformer 模型自注意力机制中违反 $O (n^2)$ 的限制,同时还提出了相应工具和方法用于新模型的训练和现有模型的调整。实验结果表明,LSG attention 机制在长文本的分类和摘要任务中效率优秀,也可以用于有效地扩展预训练模型的序列长度。
Oct, 2022
最近,随着大量的大型语言模型(LLMs)的出现,人工智能的实施进入了一个新时代。尽管这些模型本身具有能力和结构,但对于 LLMs 来说,能够对更长、更复杂的上下文具有增强理解能力而又保持相对较小的规模的需求不断增长。本文在对 LLMs 内部信息传递的本质进行深入研究的基础上,提出了一种名为 Attention Transition 的新技术。该技术使模型能够在最小的额外训练或对生成流畅性的影响下,实现更长、更好的上下文理解。我们的实验在 XSum 上进行,与原始生成结果相比取得了显著改进。
Jul, 2023
提出了一种新颖的语义压缩方法,使得基于 Transformer 的大型语言模型(LLM)能够适用于长度为原先的 6-8 倍的文本,而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型,减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明,该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口,并且在减少相关计算开销的同时能够保持生成文本的流畅性。
Dec, 2023
该研究介绍了一种有效的方法,用于将基于 Transformer 的大型语言模型扩展到无限长的输入,同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术,它将压缩性记忆融入到传统的注意力机制中,并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性,使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数,并实现了 LLMs 的快速流式推理。
Apr, 2024