Loki: 用于高效稀疏注意力的低秩键

Jun, 2024

Loki: 用于高效稀疏注意力的低秩键

Loki: Low-Rank Keys for Efficient Sparse Attention

Prajwal Singhania, Siddharth Singh, Shwai He, Soheil Feizi, Abhinav Bhatele

TL;DR我们提出了一种基于低维空间计算注意力的稀疏注意力方法 Loki，该方法在推理阶段可以更好地保持模型的效力，并通过减少数据移动和计算成本来加快注意力计算。

Abstract

inference on large language models can be expensive in terms of the compute and memory costs involved, especially when long sequence lengths are used. In particular, the →

inference large language models self-attention mechanism sparse attention approximation loki

发现论文，激发创造

Sparser 更快且更简洁：用于长程 Transformer 的高效稀疏注意力机制

通过引入 SPARSEK Attention，将自注意机制的计算和内存障碍降到最低，提供线性时间复杂度和恒定的内存占用，实现了更高效的长序列处理和管理。

Jun, 2024

Quest: 查询感知稀疏性用于高效长上下文 LLM 推断

长上下文大语言模型的推理速度下降的问题可以通过使用查询感知的 KV 缓存选择算法来加速自注意力机制，该算法通过仅加载前 K 个关键 KV 缓存页面来显著提高自注意力的速度。

Jun, 2024

SqueezeAttention: 通过分层最佳预算在 LLM 推理中对 KV-Cache 进行 2D 管理

通过确定关注层的重要性，我们提出了 SqueezeAttention 来精确优化动态分配关键值缓存的预算，并结合三种代表性的标记稀疏化算法来压缩每个层的关键值缓存。通过从序列和层两个维度进行优化，SqueezeAttention 在各种大型语言模型和基准测试中实现了 30% 至 70% 的内存减少和最高 2.2 倍的吞吐量提升。

Apr, 2024

基于高斯分布输入的自然稀疏注意力

通过对注意力机制中稀疏性的理论分析，揭示了注意力分数稀疏性的内在特性及其对计算效率的影响，并为优化大型语言模型的计算框架提供了一个理论检验，为更可扩展和高效的人工智能系统铺平了道路。

Apr, 2024

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

关键标记的重要性指标在 KV 缓存降低中，注意力分数不是唯一的所需：价值也很重要

通过使用注意力得分和值向量的 L1 范数来评估令牌的重要性，我们提出了一种新的方法：Value-Aware Token Pruning (VATP)，它在 LLMs 中表现出卓越的性能。

Jun, 2024

Scatterbrain: 统一稀疏和低秩注意力逼近

通过将局部敏感哈希（locality sensitive hashing，LSH）和核特征映射（kernel feature map）结合，我们提出了 Scatterbrain 方法来统一稀疏 Attention 和低秩 Attention，以进行精确和高效的逼近；在服务于 BigGAN 图像生成和基于预训练 T2T-ViT 模型中，Scatterbrain 可以实现比基线低 2.1 倍的误差。在 T2T Vision Transformer 模型中，Scatterbrain 即使没有微调，也可以在准确率只下降 1％的情况下减少 98％的注意力内存。对于语言建模和长距任务，我们的方法相对于稀疏或低秩 Transformers，具有更高的困惑度和平均准确率。

Oct, 2021

可训练前馈核线性自注意力近似

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022

HiP 注意力：带有分层注意力修剪的稀疏次二次注意力

我们提出了一种名为 HiP 的新方法，通过层次化剪枝注意力机制将训练和推断的时间复杂度从 O (T^2) 降低到 O (T log T)，空间复杂度从 O (T^2) 降低到 O (T)，并且能够扩展到数百万个令牌的预训练 LLM 应用中。

Jun, 2024

ALISA: 加速大型语言模型推理的稀疏感知键值缓存

ALISA 是一种算法 - 系统共同设计解决方案，旨在解决 KV 缓存所带来的挑战。通过引入高度稀疏的注意力层和优化缓存与重新计算之间的权衡，ALISA 在有限资源的系统中最大化整体性能。

Mar, 2024