路径积分形式下无限上下文转换器中的折叠上下文浓缩

May, 2024

路径积分形式下无限上下文转换器中的折叠上下文浓缩

Folded context condensation in Path Integral formalism for infinite context transformers

Won-Gi Paeng, Daesuk Kwon

TL;DR利用生成式预训练变形器的注意力算法和神经网络在路径积分形式上进行推广，将变形器的作用解释为令牌状态的时间演变，并建议在相同时间内，所有关键 - 令牌状态都可以与查询令牌状态进行关注，从而通过使用有限的序列大小的低内存来保持分离序列之间的无限上下文信息的注意力。

Abstract

This short note is written for rapid communication of long context training and to share the idea of how to train it with low memory usage. In the note, we generalize the →

long context training low memory usage generative pre-trained transformers attention algorithm infinite contextual information

发现论文，激发创造

高效的无限上下问 Transformer 与无限注意力

该研究介绍了一种有效的方法，用于将基于 Transformer 的大型语言模型扩展到无限长的输入，同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术，它将压缩性记忆融入到传统的注意力机制中，并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性，使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数，并实现了 LLMs 的快速流式推理。

Apr, 2024

地标注意力：随机访问变形金刚的无限上下文长度

本论文提出一种新方法，使用地标标记来代表输入的每个块，并通过训练使注意力选择相关块，从而使我们可以访问完整的上下文并保留随机访问灵活性。该方法与专用数据结构和系统的内存层次结构无缝集成，可以处理任意长度的上下文长度。

May, 2023

无穷记忆 Transformer

本文提出了一种无限长期记忆的 Transformer 神经网络，使用连续空间的注意机制来处理过长的信息序列，实现了对长序列的信息保持和处理。

Sep, 2021

使用哨兵标记对自回归 Transformer 进行上下文压缩

通过增量压缩指定范围的令牌的中间激活，我们提出了一种即插即用的方法，从而在处理后续上下文时减少了内存和计算成本。实验证明，与稀疏注意力基线相比，我们的方法在流畅度、n-gram 匹配和语义相似性方面具有优势。最后，我们全面评估了上下文压缩对系统改进的益处。

Oct, 2023

线性注意力下上下文学习的渐近理论

Transformers 在无需显式先前训练的情况下，基于输入示例学习和执行任务的能力，也称为上下文学习（ICL），是其成功的基础。本研究提供了关于所需样本复杂性、预训练任务多样性和上下文长度对成功 ICL 的明确答案，采用线性关注在 ICL 线性回归任务的可解模型中推导出了学习曲线的锐利渐近线。通过实验证明了随着先前训练示例数量增加，学习曲线具有双峰，且模型的行为在低和高任务多样性之间出现相变：在低多样性情况下，模型趋向于记忆训练任务，而在高多样性情况下，它实现了真正的上下文学习并在预训练任务范围之外进行泛化。这些理论洞见通过线性关注和完全非线性 Transformer 架构的实验进行了经验证实。

May, 2024

近无限背景下的分块 Transformer 环形注意力

传统的 Transformer 架构由于内存需求限制了其处理长序列的能力，而我们提出的 Ring Attention 方法通过分块计算自注意力和重叠通信的方式，提高了内存利用效率，允许处理更长的输入序列，从而消除了设备内存的限制，同时在语言建模任务上取得了显著的性能提升。

Oct, 2023

在线语言模型交互的压缩上下文记忆

本文提出一种在在线场景（如 ChatGPT）中用于 Transformer 语言模型的新型上下文压缩方法，将不断扩展的上下文压缩到紧凑的记忆空间中，并通过轻量级条件 LoRA 在推理过程中实现对压缩上下文记忆的操作，从而减小内存和注意力操作，实现与完整上下文模型相当的性能，但所需上下文内存空间仅为原来的五分之一。

Dec, 2023

上下文收敛的 Transformer 模型

通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。

Oct, 2023

聚焦 Transformer：上下文缩放的对比训练

提出了一种名为 Focused Transformer（FoT）的技术，通过对称的学习过程来增强（键，值）空间的结构，从而提供更长的上下文长度，有效地解决了大型语言模型在处理长文本时的局限性。

Jul, 2023

循环线性变换

通过引入循环替代方案以解决 transformer 自注意机制中的两个局限，本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法，在强化学习问题中实现了性能的提升。

Oct, 2023