TransformerFAM：反馈注意力即工作记忆

Apr, 2024

TransformerFAM：反馈注意力即工作记忆

TransformerFAM: Feedback attention is working memory

Dongseong Hwang, Weiran Wang, Zhuoyuan Huo, Khe Chai Sim, Pedro Moreno Mengibar

TL;DR我们提出了一种名为反馈注意力记忆（FAM）的新型 Transformer 架构，利用反馈循环使网络能够关注自身的潜在表示，从而促进 Transformer 内部的工作记忆的出现，使其能够处理无限长的序列。通过实验证明，TransformerFAM 在长文本任务中显著改善了 Transformer 的性能，无论模型大小为 1B、8B 还是 24B。这些结果展示了使大型语言模型能够处理无限长序列的潜力。

Abstract

While transformers have revolutionized deep learning, their quadratic attention complexity hinders their ability to process infinitely long inputs. We propose →

transformers attention complexity feedback attention memory working memory long language models

发现论文，激发创造

关于共享内存中注意力因子化的困难

通过对内存进行注意操作与通过输入信号筛选交互相对来说不够优化，可以利用 Luna 或 Memory Augmented Transformer 等模型减少注意计算复杂度或在块处理中传播信息来显著提高性能。

Mar, 2024

Transformer 是否需要深度长程记忆

通过一系列干预措施，研究表明使用更少的长时记忆和限制网络低层的注意力范围，可以实现与 Transformer-XL 相当的性能，并且可以获得更好的性能。

Jul, 2020

利用持久内存扩展自注意力

该研究提出了一种新的模型，该模型仅由注意力层组成。在具体实现中，加入了持续性存储向量来代替前馈层，这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示，该模型在标准字符和词级语言建模基准上表现出良好的效果。

Jul, 2019

近无限背景下的分块 Transformer 环形注意力

传统的 Transformer 架构由于内存需求限制了其处理长序列的能力，而我们提出的 Ring Attention 方法通过分块计算自注意力和重叠通信的方式，提高了内存利用效率，允许处理更长的输入序列，从而消除了设备内存的限制，同时在语言建模任务上取得了显著的性能提升。

Oct, 2023

Transformer 中的自适应注意力跨度

本研究通过提出一种自我注意力机制，可以学习其最优的注意范围，从而显着扩展了 Transformer 中使用的最大上下文大小，同时保持对内存占用和计算时间的控制。在字符级语言建模任务中，我们使用最大上下文为 8k 个字符，在 text8 和 enwiki8 上实现了最先进的性能。

May, 2019

利用线性可扩展长上下文变换器进行蛋白质掩码语言建模

本文介绍了一种名为 Performer 的新 Transformer 模型，它通过 Fast Attention Via Orthogonal Random features (FAVOR) 实现了线性标度并具有子二次空间复杂度和强大的理论保证，用于模拟蛋白质序列建模等复杂任务具有显著的有效性。

Jun, 2020

具有注意力机制的前馈网络可以解决一些长期记忆问题

我们提出了一种适用于前馈神经网络的简化注意力模型，并证明其可解决比这些任务的最佳出版结果更长和更广泛变化的序列长度的综合 “加法” 和 “乘法” 长期记忆问题。

Dec, 2015

高效的无限上下问 Transformer 与无限注意力

该研究介绍了一种有效的方法，用于将基于 Transformer 的大型语言模型扩展到无限长的输入，同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术，它将压缩性记忆融入到传统的注意力机制中，并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性，使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数，并实现了 LLMs 的快速流式推理。

Apr, 2024

循环线性变换

通过引入循环替代方案以解决 transformer 自注意机制中的两个局限，本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法，在强化学习问题中实现了性能的提升。

Oct, 2023

用于长上下文大模型的分块并行 Transformer

Blockwise Parallel Transformer (BPT) is a distinct approach to address memory demands posed by the self-attention mechanism and the large feedforward network in Transformers, which enables training sequences up to 32 times longer than vanilla Transformers and 2 to 4 times longer than previous memory-efficient methods, and improves performance in language modeling and reinforcement learning tasks.

May, 2023