使用跨层注意力减小 Transformer 键 - 值缓存大小

May, 2024

使用跨层注意力减小 Transformer 键 - 值缓存大小

Reducing Transformer Key-Value Cache Size with Cross-Layer Attention

William Brandon, Mayank Mishra, Aniruddha Nrusimha, Rameswar Panda, Jonathan Ragan Kelly

TL;DR使用交叉层注意力（CLA）设计可以进一步减小关键 - 值缓存的大小，而几乎保持与未修改 MQA 相同的准确性，在从头开始训练 1B 和 3B 参数模型的实验中证明 CLA 在内存 / 准确性权衡方面提供了帕累托改进，使得推断能处理比传统 MQA 更长的序列长度和更大的批次大小

Abstract

Key-value (KV) caching plays an essential role in accelerating decoding for transformer-based autoregressive large language models (LLMs). However, the amount of memory required to store the KV cache can become prohibitive at long sequence lengths and large batch sizes. Since the inven

key-value caching transformer-based autoregressive large language models multi-query attention (mqa)grouped-query attention (gqa)cross-layer attention (cla)

发现论文，激发创造

QCQA：质量和容量感知的分组查询注意力

提出了一种考虑质量和能力的查询头分组的方法，用于在自回归大型语言模型推断中进行关键值缓存优化。该方法能够以较少的关键值缓存需求达到与其他方法相似的准确性，并且在细调后较其他方法具有较高的准确性。

Jun, 2024

MLKV：用于内存高效 Transformer 解码的多层键值头

通过多层键 - 值共享方式，将键值缓存扩展到变压器层，进一步降低内存使用量，提高变压器模型在大规模场景中的效率。

Jun, 2024

LLM 中高效压缩 KV 头

在本文中，我们探索了 Key-Value 缓存的低秩特性，并提出了一种压缩 Key-Value 头部的新方法，该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能，为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。

Jun, 2024

GQA：从多头检查点训练广义多查询 Transformer 模型

通过增加中间的键值头数目，我们提出了一种组合查询注意力 (GQA) 的方法，它是多查询注意力 (MQA) 的推广，能够实现训练速度和质量之间的平衡。

May, 2023

GQKVA: 通过分组查询、键和值高效预训练 Transformer

GQKVA 是一种多功能方法，旨在加速 transformer 的预训练并减小模型大小，其实验结果表明 GQKVA 在图像分类任务中可以提高大约 0.3% 的准确度并减小约 4% 的模型大小。

Nov, 2023

大型语言模型高效推理的层压化 KV 缓存

提出了一种新的方法，只计算和缓存少量层的键值以大幅节省内存消耗并提高推理吞吐量。在大型语言模型上的实验证明，该方法的推理吞吐量比标准 Transformer 高 26 倍，同时在语言建模和下游任务中具有竞争性能。此外，该方法与现有的 Transformer 节省内存技术正交，因此可以轻松将它们与我们的模型集成，进一步提高推理效率。

May, 2024

优化的分组查询注意机制用于变形金刚

提出了一种激活信息驱动的方法 AsymGQA，将 MHA 不对称地分组为 GQA，并在模型性能方面取得了较好的表现。该方法解决了 GQA 在模型性能和硬件效能之间的权衡问题。

Jun, 2024

ALISA: 加速大型语言模型推理的稀疏感知键值缓存

ALISA 是一种算法 - 系统共同设计解决方案，旨在解决 KV 缓存所带来的挑战。通过引入高度稀疏的注意力层和优化缓存与重新计算之间的权衡，ALISA 在有限资源的系统中最大化整体性能。

Mar, 2024

键值变换器

通过对 QKV 模式性能进行评估，我们发现一个结合了 2D 位置编码的不对称的 KV 变压器常常比 QKV 变压器更有效且需要更少的参数和计算。

May, 2023

XC-Cache: 为高效 LLM 推理跨越关注缓存上下文

引入了受编码器 - 解码器结构启发的模型，利用交叉注意力将生成模型与参考文本进行条件化。这些模型仅训练少量添加的层，并在问答测试中表现出优异的条件生成能力，超越了上下文学习，并相对于标准 KV 缓存方法极大地减少了空间占用。

Apr, 2024