基于级联 KV 缓存的无需训练的滑动窗口上下文的指数扩展

Jun, 2024

基于级联 KV 缓存的无需训练的滑动窗口上下文的指数扩展

Training-Free Exponential Extension of Sliding Window Context with Cascading KV Cache

Jeffrey Willette, Heejun Lee, Youngwan Lee, Myeongjae Jeon, Sung Ju Hwang

TL;DR在基于 transformer 的大型语言模型（LLMs）中，通过使用一个保存了初始 token 和固定大小的滑动窗口的键值（KV）缓存，以线性复杂度实现稳定的流式生成，并能够在总缓存大小不变的情况下存储更远过去的 token，取得了 5.6% 在长上下文生成（LongBench）、1.2% 在流式困惑度（PG19）和 0.6% 在语言理解（MMLU STEM）方面的改进。

Abstract

The context window within a transformer provides a form of active memory for the current task, which can be useful for few-shot learning and conditional generation, both which depend heavily on previous context t

context window transformer sliding window key-value cache language models

发现论文，激发创造

部署长上下文变压器的挑战：理论峰值性能分析

为了降低长上下文 Transformer 模型的成本并解决效率挑战，本研究提出了一种并行编程框架，用于定量分析在 GPU 高带宽内存限制下为多个长上下文请求提供服务时所面临的效率挑战，并识别出减少 1M 上下文推断成本的可能方向。

May, 2024

循环上下文压缩：高效扩大 LLM 的上下文窗口

使用递归上下文压缩方法（RCC）有效地扩展了基于 Transformer 的大型语言模型 (LLMs) 的上下文窗口长度，解决了模型回应质量变差的问题，并以接近 0.95 的 BLEU4 得分在文本重建任务中实现了高达 32 倍的压缩率，以及在 1M 序列长度的密码检索任务中近乎 100％的准确率，同时在长文本问答任务中表现出与非压缩方法相媲美的性能，并显著节省了存储资源。

Jun, 2024

通过语义压缩扩展大型语言模型的上下文窗口

提出了一种新颖的语义压缩方法，使得基于 Transformer 的大型语言模型（LLM）能够适用于长度为原先的 6-8 倍的文本，而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型，减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明，该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口，并且在减少相关计算开销的同时能够保持生成文本的流畅性。

Dec, 2023

KV 缓存压缩，我们必须拿什么作为交换？长上下文能力方法的全面基准测试

大语言模型的长上下文能力是其关键能力之一，本研究填补了现有方法的空白，并评估了 10 多种最新方法在长上下文任务领域的表现，揭示了许多以前未知的现象，为未来长上下文能力大语言模型的发展提供了洞见和工作平台。

Jul, 2024

SKVQ：用于大语言模型的滑动窗口键值缓存量化

在这篇论文中，我们提出了一种称为 SKVQ 的策略，它通过滑动窗口的键值缓存量化来解决大型语言模型中低比特宽度的键值缓存量化问题，并实现高压缩比和高准确性。

May, 2024

通过可扩展的分词技术灵活扩展大型语言模型的上下文

本文介绍了可拓展分词作为一种可选方法，可实现大语言模型（LLMs）上下文的灵活扩展，以提供更多信息。经过综合实验证明，可拓展分词是一种有效、高效、灵活和兼容的方法，可扩展 LLMs 的上下文。

Jan, 2024

通过分解位置向量探索大型语言模型的上下文窗口

通过分析位置向量对注意力的形成和影响，我们设计了两种无需训练的上下文窗口扩展方法，即位置向量替换和注意力窗口扩展。实验结果表明，我们的方法可以有效地扩展上下文窗口的长度。

May, 2024

SnapKV: LLM 在生成之前了解您要寻找的内容

SnapKV 是一种创新且无需微调的方法，它通过选择每个注意力头的重要键值位置来高效地减小键值存储缓存的大小，从而在处理长输入序列时显著降低了计算开销和内存占用，同时保持了与基准模型相当的性能。

Apr, 2024

KVQuant: 通过 KV 缓存量化实现 1000 万上下文长度的 LLM 推断

LLMs 在大文本分析和摘要等需要大上下文窗口的应用中得到越来越广泛的应用，KV 缓存激活成为推断过程中存储器占用的主要贡献者。本研究通过引入新颖的方法对缓存的 KV 激活进行量化，包括：（i）通道关键激活量化，（ii）Rotary 位置嵌入本地化量化，（iii）非均匀 KV 缓存量化，（iv）向量稠密稀疏量化，和（v）Q-Norm。通过将这些方法应用于 LLaMA、LLaMA-2 和 Mistral 模型，我们在 Wikitext-2 和 C4 数据集上使用 3 位量化实现了小于 0.1 的困惑度退化，优于现有方法。我们的方法使得在单个 A100-80GB GPU 上可以为 LLaMA-7B 模型提供长达 100 万的上下文长度，而在 8-GPU 系统上可以提供长达 1000 万的上下文长度。

Jan, 2024

CacheGen：面向语言模型应用的快速上下文加载

CacheGen 通过将上下文的键值（KV）特征压缩成更紧凑的比特流表示形式，从而减少获取和处理上下文的延迟，并降低带宽使用量。在测试中，相对于处理长上下文的最近方法，CacheGen 在保持类似的大型语言模型任务性能的同时，减少了带宽使用量 3.7-4.3 倍，减少了获取和处理上下文的总延迟 2.7-3 倍。

Oct, 2023