关于共享内存中注意力因子化的困难

ICLRMar, 2024

关于共享内存中注意力因子化的困难

On Difficulties of Attention Factorization through Shared Memory

Uladzislau Yorsh, Martin Holeňa, Ondřej Bojar, David Herel

TL;DR通过对内存进行注意操作与通过输入信号筛选交互相对来说不够优化，可以利用 Luna 或 Memory Augmented Transformer 等模型减少注意计算复杂度或在块处理中传播信息来显著提高性能。

Abstract

transformers have revolutionized deep learning in numerous fields, including natural language processing, computer vision, and audio processing. Their strength lies in their attention mechanism, which allows for

transformers attention mechanism luna memory augmented transformer input signal filtering

发现论文，激发创造

Luna: 线性统一嵌套注意力

本论文提出了一种线性统一嵌套注意力机制 Luna，它用两个嵌套的线性注意力函数来逼近 Softmax 注意力机制，从而实现了仅线性时间和空间复杂度。该方法在长序列建模任务、神经机器翻译和大规模预训练掩码语言建模等多个领域性能优异且高效。

Jun, 2021

利用持久内存扩展自注意力

该研究提出了一种新的模型，该模型仅由注意力层组成。在具体实现中，加入了持续性存储向量来代替前馈层，这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示，该模型在标准字符和词级语言建模基准上表现出良好的效果。

Jul, 2019

硬件高效训练的门控线性注意力变换器

通过引入数据依赖的门控机制，我们开发了一种硬件高效的并行形式，使得门控线性注意力（GLA）Transformers 在适度规模的语言建模中表现竞争力，并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。

Dec, 2023

TransformerFAM：反馈注意力即工作记忆

我们提出了一种名为反馈注意力记忆（FAM）的新型 Transformer 架构，利用反馈循环使网络能够关注自身的潜在表示，从而促进 Transformer 内部的工作记忆的出现，使其能够处理无限长的序列。通过实验证明，TransformerFAM 在长文本任务中显著改善了 Transformer 的性能，无论模型大小为 1B、8B 还是 24B。这些结果展示了使大型语言模型能够处理无限长序列的潜力。

Apr, 2024

FAST: 可因子化注意力提升 Transformer 速度

通过引入可分解的关注机制，我们将注意力机制的计算和内存复杂度从 O (N^2) 降低到 O (N)，并保持了注意力矩阵的完整表示，具有稀疏性和全连接关系。经过各种标准设置的测试，结果表明我们的注意力机制具有稳定的性能，并在自我注意力被使用的多种应用领域中具有重要潜力。

Feb, 2024

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

亚线性内存：如何使 Performers SLiM

在深度学习方面，使用 Transformer 架构的计算成本很高，使用近期提出的各种线性自我关注机制来解决，观察到 Performers 具有极大的计算灵活性，并且可以在训练期间仅占用 O（1）的内存，为去中心化和民主化的深度学习做出贡献。

Dec, 2020

人类记忆与深度语言模型：模型增强相关假设的联系

该论文主要探讨利用人类记忆系统中的交叉连接假设来增强记忆增强型 Transformers 模型，并以惊奇度作为交叉连接假设模型进行实证研究，并识别该方法的局限性以指导未来的研究。

Oct, 2022

高效经济的大型语言模型推理与注意力卸载

通过引入关注点卸载的概念，将昂贵的计算优化加速器与便宜的内存优化设备相结合，以提高大型语言模型的效率和成本效益。我们开发了 Lamina 推理系统，实验证明，相较于同质解决方案，Lamina 可以提供每美元 1.48 倍至 12.1 倍的更高预计吞吐量。

May, 2024

线性时间变压器的潜在注意力

在传统的 transformer 模型中，标准的 attention 机制的时间复杂度随着序列的长度呈二次方增长。本研究提出了一种基于潜在向量定义注意力的方法，将时间复杂度降低为随序列长度线性增长。我们的 “Latte Transformer” 模型可以在双向和单向任务中使用，通过因果版本可以实现在推理过程中进行语言生成任务的记忆和时间高效的循环实现。与标准 transformer 相比，标准的下一个记号预测的时间复杂度与序列长度成线性关系，而 Latte Transformer 只需常数时间计算下一个记号。我们方法的实证表现与标准 attention 相当，但允许在标准 attention 不可行的背景窗口范围内进行扩展。

Feb, 2024