特征关注:低秩空间中的关注用于KV缓存压缩
通过自适应KV缓存压缩的插拔式方法,我们引入了一种减少大型语言模型(LLM)生成推理内存占用的方法。通过有针对性的分析注意力模块的内在结构,我们构建自适应KV缓存:针对局部上下文的注意力头强调接触范围短的上下文,针对特殊标记的注意力头中心化的丢弃非特殊标记,只有广泛关注所有标记的注意力头才使用标准KV缓存。此外,通过轻量级的注意力分析引导自适应KV缓存的构建,FastGen不需要资源密集的微调或重新训练。在各种场景的实验中,FastGen在GPU内存消耗方面显著减少,同时几乎没有生成质量损失。我们将发布用于重现的代码和兼容的CUDA内核。
Oct, 2023
通过确定关注层的重要性,我们提出了SqueezeAttention来精确优化动态分配关键值缓存的预算,并结合三种代表性的标记稀疏化算法来压缩每个层的关键值缓存。通过从序列和层两个维度进行优化,SqueezeAttention在各种大型语言模型和基准测试中实现了30%至70%的内存减少和最高2.2倍的吞吐量提升。
Apr, 2024
通过Coupled Quantization (CQ)技术,我们能够更信息效率地对大模型(Large Language Models)的KV缓存进行压缩,从而提高效率并保持模型质量。
May, 2024
我们提出了一种基于低维空间计算注意力的稀疏注意力方法Loki,该方法在推理阶段可以更好地保持模型的效力,并通过减少数据移动和计算成本来加快注意力计算。
Jun, 2024
在本文中,我们探索了Key-Value缓存的低秩特性,并提出了一种压缩Key-Value头部的新方法,该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能,为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。
Jun, 2024
基于对注意力分配模式和键嵌入进行分析,我们提出了一种基于键嵌入的压缩策略,证实可在不降低准确性的情况下,将关键值(KV)缓存大小减少50%(在语言模型和针对性查询任务中)和90%(在密码检索任务中)。
Jun, 2024
通过直接在多个层之间共享计算的注意力权重,利用传统注意力机制带来的计算和存储资源消耗问题,这篇论文介绍了一种新型的共享注意力(Shared Attention)机制,实现在资源有限环境下提高大型语言模型(LLMs)的效率。
Jul, 2024
本研究针对大型语言模型在处理长序列时内存和计算成本高的问题,通过探讨键值缓存中的冗余,提出了名为ThinK的查询依赖性缓存剪枝方法。该方法在选择性剪除不重要的通道的同时,保持或提高了模型的准确性,并将内存成本降低超过20%。
Jul, 2024
本研究解决了大型语言模型长上下文推理中内存资源分配效率低下的问题。通过引入一种新区块的分页注意力框架KV-压缩,实现了按理论压缩率降低键值缓存的内存占用,从而显著提升了长上下文请求的并发处理能力。实验结果显示,该方法在多个基准测试中达到最先进的性能,并能够实现高达8倍的压缩率,而对模型性能影响微乎其微。
Sep, 2024