Loki: 用于高效稀疏注意力的低秩键
通过引入 SPARSEK Attention,将自注意机制的计算和内存障碍降到最低,提供线性时间复杂度和恒定的内存占用,实现了更高效的长序列处理和管理。
Jun, 2024
长上下文大语言模型的推理速度下降的问题可以通过使用查询感知的 KV 缓存选择算法来加速自注意力机制,该算法通过仅加载前 K 个关键 KV 缓存页面来显著提高自注意力的速度。
Jun, 2024
通过确定关注层的重要性,我们提出了 SqueezeAttention 来精确优化动态分配关键值缓存的预算,并结合三种代表性的标记稀疏化算法来压缩每个层的关键值缓存。通过从序列和层两个维度进行优化,SqueezeAttention 在各种大型语言模型和基准测试中实现了 30% 至 70% 的内存减少和最高 2.2 倍的吞吐量提升。
Apr, 2024
通过对注意力机制中稀疏性的理论分析,揭示了注意力分数稀疏性的内在特性及其对计算效率的影响,并为优化大型语言模型的计算框架提供了一个理论检验,为更可扩展和高效的人工智能系统铺平了道路。
Apr, 2024
LeanAttention 是一种可扩展的自注意力计算技术,通过重新设计解码阶段的执行流程,将自注意力机制的实现扩展到具有挑战性的长上下文长度情况,以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。
May, 2024
通过使用注意力得分和值向量的 L1 范数来评估令牌的重要性,我们提出了一种新的方法:Value-Aware Token Pruning (VATP),它在 LLMs 中表现出卓越的性能。
Jun, 2024
通过将局部敏感哈希(locality sensitive hashing,LSH)和核特征映射(kernel feature map)结合,我们提出了 Scatterbrain 方法来统一稀疏 Attention 和低秩 Attention,以进行精确和高效的逼近;在服务于 BigGAN 图像生成和基于预训练 T2T-ViT 模型中,Scatterbrain 可以实现比基线低 2.1 倍的误差。在 T2T Vision Transformer 模型中,Scatterbrain 即使没有微调,也可以在准确率只下降 1%的情况下减少 98%的注意力内存。对于语言建模和长距任务,我们的方法相对于稀疏或低秩 Transformers,具有更高的困惑度和平均准确率。
Oct, 2021
我们提出了一种名为 HiP 的新方法,通过层次化剪枝注意力机制将训练和推断的时间复杂度从 O (T^2) 降低到 O (T log T),空间复杂度从 O (T^2) 降低到 O (T),并且能够扩展到数百万个令牌的预训练 LLM 应用中。
Jun, 2024
ALISA 是一种算法 - 系统共同设计解决方案,旨在解决 KV 缓存所带来的挑战。通过引入高度稀疏的注意力层和优化缓存与重新计算之间的权衡,ALISA 在有限资源的系统中最大化整体性能。
Mar, 2024