无穷记忆 Transformer

ACLSep, 2021

$\infty$-former: Infinite Memory Transformer

Pedro Henrique Martins, Zita Marinho, André F. T. Martins

TL;DR本文提出了一种无限长期记忆的 Transformer 神经网络，使用连续空间的注意机制来处理过长的信息序列，实现了对长序列的信息保持和处理。

Abstract

transformers are unable to model long-term memories effectively, since the amount of computation they need to perform grows with the context length. While variations of efficient transformers have been proposed,

transformers long-term memory attention mechanism memory capacity unbounded memory

发现论文，激发创造

高效的无限上下问 Transformer 与无限注意力

该研究介绍了一种有效的方法，用于将基于 Transformer 的大型语言模型扩展到无限长的输入，同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术，它将压缩性记忆融入到传统的注意力机制中，并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性，使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数，并实现了 LLMs 的快速流式推理。

Apr, 2024

路径积分形式下无限上下文转换器中的折叠上下文浓缩

利用生成式预训练变形器的注意力算法和神经网络在路径积分形式上进行推广，将变形器的作用解释为令牌状态的时间演变，并建议在相同时间内，所有关键 - 令牌状态都可以与查询令牌状态进行关注，从而通过使用有限的序列大小的低内存来保持分离序列之间的无限上下文信息的注意力。

May, 2024

Longformer：长文档转换器

Longformer 是一种基于 Transformers 的模型，采用能够线性缩放序列长度的自注意力机制，使得处理数千个记号以上的文档变得容易；与先前的一些工作不同的是，Longformer 同时进行了预训练和下游任务的微调，并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外，Longformer 还引入了 Longformer-Encoder-Decoder（LED）以支持长文档的生成序列对序列任务。

Apr, 2020

长程变压器的自然语言处理任务效率

比较研究了多种 Transformer 模型的性能，发现长序列的改进版本在内容选择和查询引导解码方面有优势，但在处理远距离的信息和近似误差上有欠缺的地方。

Feb, 2022

Unlimiformer: 具有无限长度输入的长程 Transformer

这篇论文提出了一种名为 Unlimiformer 的新方法，可以在不需要修改模型代码或增加学习的权重的情况下，将具有谷歌的长文本模型 Longformer 和 Facebook 的 BART 等预训练模型拓展到可输入无限长度的输入序列，并在多篇文档摘要任务上表现出很高的效果。

May, 2023

高效远程 Transformer：你需要参与更多，但不一定是每一层

提出了一种名为 MASFormer 的变种 Transformer 模型，它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系，又能在其余层使用稀疏注意力提高计算效率。实验结果表明，该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能，同时显著降低计算成本（多达 75%），并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。

Oct, 2023

地标注意力：随机访问变形金刚的无限上下文长度

本论文提出一种新方法，使用地标标记来代表输入的每个块，并通过训练使注意力选择相关块，从而使我们可以访问完整的上下文并保留随机访问灵活性。该方法与专用数据结构和系统的内存层次结构无缝集成，可以处理任意长度的上下文长度。

May, 2023

循环线性变换

通过引入循环替代方案以解决 transformer 自注意机制中的两个局限，本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法，在强化学习问题中实现了性能的提升。

Oct, 2023

近无限背景下的分块 Transformer 环形注意力

传统的 Transformer 架构由于内存需求限制了其处理长序列的能力，而我们提出的 Ring Attention 方法通过分块计算自注意力和重叠通信的方式，提高了内存利用效率，允许处理更长的输入序列，从而消除了设备内存的限制，同时在语言建模任务上取得了显著的性能提升。

Oct, 2023

内上下文格式：大型语言模型的快速压缩上下文

通过使用 In-Context Former 方法，我们成功减少了基于 Transformer 的大型语言模型的压缩成本，并使得实时压缩的场景成为可能。

Jun, 2024