LoCoCo：为了长上下文压缩而引入的卷积操作

Jun, 2024

LoCoCo：为了长上下文压缩而引入的卷积操作

LoCoCo: Dropping In Convolutions for Long Context Compression

Ruisi Cai, Yuandong Tian, Zhangyang Wang, Beidi Chen

TL;DR本文介绍了一种用于大型语言模型中处理长上下文序列的新方法，名为 Dropping In Convolutions for Long Context Compression（LoCoCo）。LoCoCo 通过使用一个固定大小的键 - 值（KV）缓存来提高推理和微调阶段的效率，通过自适应融合技术将先前的 KV 对与输入的标记混合，以最小化上下文信息的损失并确保准确的注意力建模。通过动态计算每个 KV 缓存槽的混合权重来实现标记的整合。相比于相同缓存大小的基准模型，LoCoCo 在推理期间成功地将多达 3482 个标记压缩到 128 大小的 KV 缓存中，并保持了与完整序列相当的性能提升了 0.2791 个单位的准确率。在后训练调优过程中，我们还使用大小为 512 的 KV 缓存有效地将上下文长度从 4K 扩展到 32K，达到了与整个序列进行微调相似的性能。

Abstract

This paper tackles the memory hurdle of processing long context sequences in large language models (LLMs), by presenting a novel approach, Dropping In Convolutions for long context compression (LoCoCo). LoCoCo em

large language models long context compression dropping in convolutions key-value cache context length

发现论文，激发创造

LLoCO：离线学习长上下文

通过上下文压缩和领域内参数高效微调，我们提出了一种解决大型语言模型处理长篇内容的挑战的新方法，使得 LLM 能够创建原始上下文的简洁表示，并有效地检索相关信息以准确回答问题。我们介绍了 LLoCO，一种通过使用 LoRA 组合上下文压缩、检索和参数高效微调的技术，将 4k 个令牌的 LLaMA2-7B 模型的有效上下文窗口扩展到处理高达 128k 个令牌。在几个长上下文问答数据集上对我们的方法进行评估，结果显示 LLoCO 在推理过程中使用 $30 imes$ 更少的令牌，显著优于上下文学习，实现了高达 $7.62 imes$ 的加速，大大降低了长文档问答的成本，为高效处理长上下文提供了有希望的解决方案。我们的代码公开可用于该 https URL。

Apr, 2024

LOOK-M: KV 缓存中的一次查找优化，用于高效的多模态长上下文推理

LOOK-M 是一个节省多模态 KV 缓存大小的创新方法，其通过优化文本和图像特征的交互作用，使用新的文本优先方法来压缩 KV 缓存，以及使用 KV 对的合并来缓解图像上下文信息的退化，实现了高效的解码速度和在各种多模态长上下文任务中保持或增强性能。

Jun, 2024

KV 缓存压缩，我们必须拿什么作为交换？长上下文能力方法的全面基准测试

大语言模型的长上下文能力是其关键能力之一，本研究填补了现有方法的空白，并评估了 10 多种最新方法在长上下文任务领域的表现，揭示了许多以前未知的现象，为未来长上下文能力大语言模型的发展提供了洞见和工作平台。

Jul, 2024

序列秘密揭示舍弃的内容

本文介绍了一种优化大语言模型中键值缓存的方法，通过动态保留重要的键值对来减少推理过程中键值缓存的内存使用量高达 70%，而不会引起性能明显下降。

Apr, 2024

SnapKV: LLM 在生成之前了解您要寻找的内容

SnapKV 是一种创新且无需微调的方法，它通过选择每个注意力头的重要键值位置来高效地减小键值存储缓存的大小，从而在处理长输入序列时显著降低了计算开销和内存占用，同时保持了与基准模型相当的性能。

Apr, 2024

使用 LoCo 和 M2-BERT 进行长上下文检索模型的基准测试和构建

为了解决长文本检索中的问题，研究人员引入了 LoCoV1 任务基准和 M2-BERT 检索编码器，通过预训练和微调方法，实现了对长文本的高效检索能力。

Feb, 2024

模型指导的内容丢弃方法：用于大型语言模型的自适应 KV 缓存压缩

通过自适应 KV 缓存压缩的插拔式方法，我们引入了一种减少大型语言模型（LLM）生成推理内存占用的方法。通过有针对性的分析注意力模块的内在结构，我们构建自适应 KV 缓存：针对局部上下文的注意力头强调接触范围短的上下文，针对特殊标记的注意力头中心化的丢弃非特殊标记，只有广泛关注所有标记的注意力头才使用标准 KV 缓存。此外，通过轻量级的注意力分析引导自适应 KV 缓存的构建，FastGen 不需要资源密集的微调或重新训练。在各种场景的实验中，FastGen 在 GPU 内存消耗方面显著减少，同时几乎没有生成质量损失。我们将发布用于重现的代码和兼容的 CUDA 内核。

Oct, 2023

VoCo-LLaMA：面向大型语言模型的视觉压缩

基于 Vision-Language Models 的 VoCo-LLaMA 方法通过引入 Vision Compression tokens 和利用 attention distillation，实现了视觉压缩并提高推理效率，能够理解时间相关性，在多模态应用中具有广泛的潜力。

Jun, 2024

LoMA：无损压缩的内存注意力

提出了一种新方法，即无损压缩记忆关注（LoMA）方法，可以根据一组压缩比将信息无损地压缩到特殊记忆令牌 KV 对中，实现资源消耗的减少，并取得了显著的结果。

Jan, 2024

KVQuant: 通过 KV 缓存量化实现 1000 万上下文长度的 LLM 推断

LLMs 在大文本分析和摘要等需要大上下文窗口的应用中得到越来越广泛的应用，KV 缓存激活成为推断过程中存储器占用的主要贡献者。本研究通过引入新颖的方法对缓存的 KV 激活进行量化，包括：（i）通道关键激活量化，（ii）Rotary 位置嵌入本地化量化，（iii）非均匀 KV 缓存量化，（iv）向量稠密稀疏量化，和（v）Q-Norm。通过将这些方法应用于 LLaMA、LLaMA-2 和 Mistral 模型，我们在 Wikitext-2 和 C4 数据集上使用 3 位量化实现了小于 0.1 的困惑度退化，优于现有方法。我们的方法使得在单个 A100-80GB GPU 上可以为 LLaMA-7B 模型提供长达 100 万的上下文长度，而在 8-GPU 系统上可以提供长达 1000 万的上下文长度。

Jan, 2024