LOOK-M: KV 缓存中的一次查找优化，用于高效的多模态长上下文推理

Jun, 2024

LOOK-M: KV 缓存中的一次查找优化，用于高效的多模态长上下文推理

LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference

Zhongwei Wan, Ziang Wu, Che Liu, Jinfa Huang, Zhihong Zhu...

TL;DRLOOK-M 是一个节省多模态 KV 缓存大小的创新方法，其通过优化文本和图像特征的交互作用，使用新的文本优先方法来压缩 KV 缓存，以及使用 KV 对的合并来缓解图像上下文信息的退化，实现了高效的解码速度和在各种多模态长上下文任务中保持或增强性能。

Abstract

Long-context multimodal large language models (MLLMs) demand substantial computational resources for inference as the growth of their multimodal Key-Value (KV) cache, in response to increasing input lengths, challenges memory and time →

multimodal large language models key-value (kv) cache efficiency text-prior method kv cache memory usage

发现论文，激发创造

SnapKV: LLM 在生成之前了解您要寻找的内容

SnapKV 是一种创新且无需微调的方法，它通过选择每个注意力头的重要键值位置来高效地减小键值存储缓存的大小，从而在处理长输入序列时显著降低了计算开销和内存占用，同时保持了与基准模型相当的性能。

Apr, 2024

使用 Kcache 的高效 LLM 推断

KCache 技术是一种用于提高大型语言模型推理过程中内存瓶颈问题的技术，通过缓存预先计算的 KV 状态，将热门 LLMs 的吞吐量提高 40%，同时保持准确性。

Apr, 2024

MiniCache：大型语言模型的键值缓存深度维度压缩

通过对大型语言模型的键 - 值缓存进行压缩，以降低内存占用，并提高高吞吐量和优化压缩比率。

May, 2024

序列秘密揭示舍弃的内容

本文介绍了一种优化大语言模型中键值缓存的方法，通过动态保留重要的键值对来减少推理过程中键值缓存的内存使用量高达 70%，而不会引起性能明显下降。

Apr, 2024

KVQuant: 通过 KV 缓存量化实现 1000 万上下文长度的 LLM 推断

LLMs 在大文本分析和摘要等需要大上下文窗口的应用中得到越来越广泛的应用，KV 缓存激活成为推断过程中存储器占用的主要贡献者。本研究通过引入新颖的方法对缓存的 KV 激活进行量化，包括：（i）通道关键激活量化，（ii）Rotary 位置嵌入本地化量化，（iii）非均匀 KV 缓存量化，（iv）向量稠密稀疏量化，和（v）Q-Norm。通过将这些方法应用于 LLaMA、LLaMA-2 和 Mistral 模型，我们在 Wikitext-2 和 C4 数据集上使用 3 位量化实现了小于 0.1 的困惑度退化，优于现有方法。我们的方法使得在单个 A100-80GB GPU 上可以为 LLaMA-7B 模型提供长达 100 万的上下文长度，而在 8-GPU 系统上可以提供长达 1000 万的上下文长度。

Jan, 2024

LLM 中高效压缩 KV 头

在本文中，我们探索了 Key-Value 缓存的低秩特性，并提出了一种压缩 Key-Value 头部的新方法，该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能，为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。

Jun, 2024

Quest: 查询感知稀疏性用于高效长上下文 LLM 推断

长上下文大语言模型的推理速度下降的问题可以通过使用查询感知的 KV 缓存选择算法来加速自注意力机制，该算法通过仅加载前 K 个关键 KV 缓存页面来显著提高自注意力的速度。

Jun, 2024

模型指导的内容丢弃方法：用于大型语言模型的自适应 KV 缓存压缩

通过自适应 KV 缓存压缩的插拔式方法，我们引入了一种减少大型语言模型（LLM）生成推理内存占用的方法。通过有针对性的分析注意力模块的内在结构，我们构建自适应 KV 缓存：针对局部上下文的注意力头强调接触范围短的上下文，针对特殊标记的注意力头中心化的丢弃非特殊标记，只有广泛关注所有标记的注意力头才使用标准 KV 缓存。此外，通过轻量级的注意力分析引导自适应 KV 缓存的构建，FastGen 不需要资源密集的微调或重新训练。在各种场景的实验中，FastGen 在 GPU 内存消耗方面显著减少，同时几乎没有生成质量损失。我们将发布用于重现的代码和兼容的 CUDA 内核。

Oct, 2023

LoCoCo：为了长上下文压缩而引入的卷积操作

本文介绍了一种用于大型语言模型中处理长上下文序列的新方法，名为 Dropping In Convolutions for Long Context Compression（LoCoCo）。LoCoCo 通过使用一个固定大小的键 - 值（KV）缓存来提高推理和微调阶段的效率，通过自适应融合技术将先前的 KV 对与输入的标记混合，以最小化上下文信息的损失并确保准确的注意力建模。通过动态计算每个 KV 缓存槽的混合权重来实现标记的整合。相比于相同缓存大小的基准模型，LoCoCo 在推理期间成功地将多达 3482 个标记压缩到 128 大小的 KV 缓存中，并保持了与完整序列相当的性能提升了 0.2791 个单位的准确率。在后训练调优过程中，我们还使用大小为 512 的 KV 缓存有效地将上下文长度从 4K 扩展到 32K，达到了与整个序列进行微调相似的性能。

Jun, 2024

从文本到像素：MLLMs 中的长篇背景理解的进展

通过将文本序列压缩到视觉像素空间中的图像，SEEKER 旨在优化长文本的紧凑编码，以便于在固定的令牌长度预算内高效处理长文本，并在理解长格式多模输入和生成长格式文本输出方面胜过所有现有专有和开源 MLLMs。

May, 2024