EL-Attention: 面向生成的记忆效率高的无损注意力

ICMLMay, 2021

EL-Attention: 面向生成的记忆效率高的无损注意力

EL-Attention: Memory Efficient Lossless Attention for Generation

Yu Yan, Jiusheng Chen, Weizhen Qi, Nikhil Bhendawade, Yeyun Gong...

TL;DR提出了一种名为 EL-attention 的记忆高效的无损注意力机制，它避免了传统基于 cache 的多头注意力机制的高运算代价，通过扩展 query 并保持 key 和 value 的共享来构造注意力结果，从而实现了与传统方法相同的结果，在不损失准确性的情况下，将现有模型的推断速度提高了 1.6 倍至 5.3 倍。

Abstract

transformer model with multi-head attention requires caching intermediate results for efficient inference in generation tasks. However, cache brings new memory-related costs and prevents leveraging larger batch s

transformer model multi-head attention memory-efficient el-attention inference speed

发现论文，激发创造

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

快速 Transformer 解码：仅需要一个写头

本文提出了一种多查询关注机制，使用这种机制可以降低增量解码的内存需求，并通过实验验证了这种关注机制可以使解码速度更快，同时只会导致较小的质量损失。

Nov, 2019

高效经济的大型语言模型推理与注意力卸载

通过引入关注点卸载的概念，将昂贵的计算优化加速器与便宜的内存优化设备相结合，以提高大型语言模型的效率和成本效益。我们开发了 Lamina 推理系统，实验证明，相较于同质解决方案，Lamina 可以提供每美元 1.48 倍至 12.1 倍的更高预计吞吐量。

May, 2024

硬件高效训练的门控线性注意力变换器

通过引入数据依赖的门控机制，我们开发了一种硬件高效的并行形式，使得门控线性注意力（GLA）Transformers 在适度规模的语言建模中表现竞争力，并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。

Dec, 2023

使用跨层注意力减小 Transformer 键 - 值缓存大小

使用交叉层注意力（CLA）设计可以进一步减小关键 - 值缓存的大小，而几乎保持与未修改 MQA 相同的准确性，在从头开始训练 1B 和 3B 参数模型的实验中证明 CLA 在内存 / 准确性权衡方面提供了帕累托改进，使得推断能处理比传统 MQA 更长的序列长度和更大的批次大小

May, 2024

提高注意力的必要性

我们引入了三种新的注意力机制，比标准的多头注意力在效率和学习能力方面表现更好，从而提高了 Transformer 模型的性能和广泛部署能力。我们的第一个贡献是优化的注意力，它在头部数量、参数数量和矩阵乘法数量上与标准注意力相近，但参数数量少了 3/4，每个头部少了一次矩阵乘法。接下来，我们介绍了高效的注意力，它在参数数量上只有标准注意力的一半，每个头部少了两次矩阵乘法，并且速度是标准注意力的两倍。最后，我们介绍了超级注意力，在视觉和自然语言处理任务中显著超过标准注意力，同时具有更少的参数和矩阵乘法。除了提供严谨的数学比较，我们还在 MNIST、CIFAR100、IMDB 电影评论和 Amazon 评论数据集上评估了所提出的注意力机制。

Mar, 2024

AttentionStore：大型语言模型服务中多轮会话中的经济高效注意力重用

通过 AttentionStore，可以显著降低多轮对话中重复计算的开销，提高首个令牌的时间及预填充处理性能，减少端到端推理成本。

Mar, 2024

基于 Top-k 注意力的内存高效 Transformer

本文介绍了一种简单而高效的用于 vanilla attention 的逼近算法，基于对查询进行分块的计算，在多个数据集上的评估表明其准确性接近于 vanilla attention。

Jun, 2021

折叠注意力：用于设备上基于变压器的流式语音识别的内存和功耗优化

通过使用 folding attention 技术，针对线性层进行优化，从而显著减小模型大小并改善存储和功耗效率，同时不损失模型准确性或计算开销。

Sep, 2023

关于共享内存中注意力因子化的困难

通过对内存进行注意操作与通过输入信号筛选交互相对来说不够优化，可以利用 Luna 或 Memory Augmented Transformer 等模型减少注意计算复杂度或在块处理中传播信息来显著提高性能。

Mar, 2024