ThinK: 通过查询驱动的剪枝实现更薄的键缓存
通过整合一个(几乎不消耗)常量大小的缓存与基于驱逐策略的缓存方法,提出了LESS,以在过去的解码步骤中查询所有标记。它在时间上保留信息的能力可在多种任务中展现出优点,帮助降低性能差距和提高效率。
Feb, 2024
通过确定关注层的重要性,我们提出了SqueezeAttention来精确优化动态分配关键值缓存的预算,并结合三种代表性的标记稀疏化算法来压缩每个层的关键值缓存。通过从序列和层两个维度进行优化,SqueezeAttention在各种大型语言模型和基准测试中实现了30%至70%的内存减少和最高2.2倍的吞吐量提升。
Apr, 2024
长上下文大语言模型的推理速度下降的问题可以通过使用查询感知的KV缓存选择算法来加速自注意力机制,该算法通过仅加载前K个关键KV缓存页面来显著提高自注意力的速度。
Jun, 2024
基于对注意力分配模式和键嵌入进行分析,我们提出了一种基于键嵌入的压缩策略,证实可在不降低准确性的情况下,将关键值(KV)缓存大小减少50%(在语言模型和针对性查询任务中)和90%(在密码检索任务中)。
Jun, 2024
通过直接在多个层之间共享计算的注意力权重,利用传统注意力机制带来的计算和存储资源消耗问题,这篇论文介绍了一种新型的共享注意力(Shared Attention)机制,实现在资源有限环境下提高大型语言模型(LLMs)的效率。
Jul, 2024
该研究针对大型语言模型在推理过程中KV缓存造成的高内存消耗问题,提出了NACL框架,通过单步操作优化缓存驱逐过程。研究表明,NACL显著提高了短文本和长文本任务的性能,分别提升了80%和76%,同时减少了最多50%的KV缓存使用,且保持了95%以上的性能。
Aug, 2024
本研究针对大型语言模型在推理时面临的KV缓存管理问题,提出了NACL框架,旨在优化长上下文的缓存驱逐过程。NACL通过结合准确的注意力得分统计和多样化的随机驱逐策略,显著改善了短文本和长文本任务的性能,分别提高了80%和76%的准确率,同时将KV缓存减少了50%以上,且性能保持在95%以上。
Aug, 2024
本研究解决了大型语言模型中长上下文长度和大批量处理过程中KV缓存导致的内存瓶颈问题。提出的特征关注方法通过在低秩空间中执行关注操作,显著减少了KV缓存的内存开销,并且与现有的缓存压缩技术可协同使用。实验结果表明,该方法能够将KV缓存大小减少最多40%,并减少注意力操作延迟最多60%,性能下降极小。
Aug, 2024