LOOK-M: KV 缓存中的一次查找优化,用于高效的多模态长上下文推理
SnapKV 是一种创新且无需微调的方法,它通过选择每个注意力头的重要键值位置来高效地减小键值存储缓存的大小,从而在处理长输入序列时显著降低了计算开销和内存占用,同时保持了与基准模型相当的性能。
Apr, 2024
KCache 技术是一种用于提高大型语言模型推理过程中内存瓶颈问题的技术,通过缓存预先计算的 KV 状态,将热门 LLMs 的吞吐量提高 40%,同时保持准确性。
Apr, 2024
LLMs 在大文本分析和摘要等需要大上下文窗口的应用中得到越来越广泛的应用,KV 缓存激活成为推断过程中存储器占用的主要贡献者。本研究通过引入新颖的方法对缓存的 KV 激活进行量化,包括:(i)通道关键激活量化,(ii)Rotary 位置嵌入本地化量化,(iii)非均匀 KV 缓存量化,(iv)向量稠密稀疏量化,和(v)Q-Norm。通过将这些方法应用于 LLaMA、LLaMA-2 和 Mistral 模型,我们在 Wikitext-2 和 C4 数据集上使用 3 位量化实现了小于 0.1 的困惑度退化,优于现有方法。我们的方法使得在单个 A100-80GB GPU 上可以为 LLaMA-7B 模型提供长达 100 万的上下文长度,而在 8-GPU 系统上可以提供长达 1000 万的上下文长度。
Jan, 2024
在本文中,我们探索了 Key-Value 缓存的低秩特性,并提出了一种压缩 Key-Value 头部的新方法,该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能,为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。
Jun, 2024
长上下文大语言模型的推理速度下降的问题可以通过使用查询感知的 KV 缓存选择算法来加速自注意力机制,该算法通过仅加载前 K 个关键 KV 缓存页面来显著提高自注意力的速度。
Jun, 2024
通过自适应 KV 缓存压缩的插拔式方法,我们引入了一种减少大型语言模型(LLM)生成推理内存占用的方法。通过有针对性的分析注意力模块的内在结构,我们构建自适应 KV 缓存:针对局部上下文的注意力头强调接触范围短的上下文,针对特殊标记的注意力头中心化的丢弃非特殊标记,只有广泛关注所有标记的注意力头才使用标准 KV 缓存。此外,通过轻量级的注意力分析引导自适应 KV 缓存的构建,FastGen 不需要资源密集的微调或重新训练。在各种场景的实验中,FastGen 在 GPU 内存消耗方面显著减少,同时几乎没有生成质量损失。我们将发布用于重现的代码和兼容的 CUDA 内核。
Oct, 2023
本文介绍了一种用于大型语言模型中处理长上下文序列的新方法,名为 Dropping In Convolutions for Long Context Compression(LoCoCo)。LoCoCo 通过使用一个固定大小的键 - 值(KV)缓存来提高推理和微调阶段的效率,通过自适应融合技术将先前的 KV 对与输入的标记混合,以最小化上下文信息的损失并确保准确的注意力建模。通过动态计算每个 KV 缓存槽的混合权重来实现标记的整合。相比于相同缓存大小的基准模型,LoCoCo 在推理期间成功地将多达 3482 个标记压缩到 128 大小的 KV 缓存中,并保持了与完整序列相当的性能提升了 0.2791 个单位的准确率。在后训练调优过程中,我们还使用大小为 512 的 KV 缓存有效地将上下文长度从 4K 扩展到 32K,达到了与整个序列进行微调相似的性能。
Jun, 2024
通过将文本序列压缩到视觉像素空间中的图像,SEEKER 旨在优化长文本的紧凑编码,以便于在固定的令牌长度预算内高效处理长文本,并在理解长格式多模输入和生成长格式文本输出方面胜过所有现有专有和开源 MLLMs。
May, 2024