Apr, 2024

高效的无限上下问 Transformer 与无限注意力

TL;DR该研究介绍了一种有效的方法,用于将基于 Transformer 的大型语言模型扩展到无限长的输入,同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术,它将压缩性记忆融入到传统的注意力机制中,并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性,使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数,并实现了 LLMs 的快速流式推理。