KV 缓存压缩，我们必须拿什么作为交换？长上下文能力方法的全面基准测试

Jul, 2024

KV 缓存压缩，我们必须拿什么作为交换？长上下文能力方法的全面基准测试

KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches

Jiayi Yuan, Hongyi Liu, Shaochen, Zhong, Yu-Neng Chuang...

TL;DR大语言模型的长上下文能力是其关键能力之一，本研究填补了现有方法的空白，并评估了 10 多种最新方法在长上下文任务领域的表现，揭示了许多以前未知的现象，为未来长上下文能力大语言模型的发展提供了洞见和工作平台。

Abstract

long context capability is a crucial competency for large language models (LLMs) as it mitigates the human struggle to digest long-form texts. This capability enables complex task-solving scenarios such as book s

long context capability large language models transformer-based llms efficiency-driven approaches long context tasks

发现论文，激发创造

部署长上下文变压器的挑战：理论峰值性能分析

为了降低长上下文 Transformer 模型的成本并解决效率挑战，本研究提出了一种并行编程框架，用于定量分析在 GPU 高带宽内存限制下为多个长上下文请求提供服务时所面临的效率挑战，并识别出减少 1M 上下文推断成本的可能方向。

May, 2024

通过语义压缩扩展大型语言模型的上下文窗口

提出了一种新颖的语义压缩方法，使得基于 Transformer 的大型语言模型（LLM）能够适用于长度为原先的 6-8 倍的文本，而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型，减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明，该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口，并且在减少相关计算开销的同时能够保持生成文本的流畅性。

Dec, 2023

LongBench: 一个用于长篇上下文理解的双语多任务基准

通过引入 LongBench，对 8 个大型语言模型进行全面评估，我们发现商业模型（GPT-3.5-Turbo-16k）优于其他开源模型，但在更长的语境下仍存在困难；在较长序列上进行的缩放位置嵌入和微调，在长语境理解方面带来了实质性的改进；检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进，但性能仍落后于具有强大长上下文理解能力的模型。

Aug, 2023

不留下任何文件：扩展多文档问答中的长上下文语言模型基准测试

提出了一个新的长上下文基准测试 Loong，通过扩展的多文档问题回答来实现与现实场景的对齐，来评估模型的长上下文建模能力。

Jun, 2024

评估零射击长上下文语言模型压缩

在长语境下，评估零样本压缩技术对大型语言模型 (LLMs) 的有效性，发现在应用某些压缩方法时，计算错误的趋势会增加。提出一种假设来解释不同 LLM 压缩技术的不同行为，并探索减轻某些技术在长语境下性能下降的方法。

Jun, 2024

在长上下文大语言模型中推进 Transformer 架构的综合调查

该研究论文主要针对基于 Transformer 的大型语言模型的长上下文能力进行了模型架构的改进，并提供了与之相关的评估需求以及未来研究的挑战和潜在方向。

Nov, 2023

LooGLE: 长文本语言模型是否理解长文本上下文？

基于 LooGLE 评估模型的表现，研究显示商业模型在短依赖任务上胜过开源模型，同时也揭示了长依赖任务的困难，并指出在短问答任务中检索式技术有着明显的好处，而扩展上下文窗口长度的策略对于长上下文理解的影响有限。

Nov, 2023

KVQuant: 通过 KV 缓存量化实现 1000 万上下文长度的 LLM 推断

LLMs 在大文本分析和摘要等需要大上下文窗口的应用中得到越来越广泛的应用，KV 缓存激活成为推断过程中存储器占用的主要贡献者。本研究通过引入新颖的方法对缓存的 KV 激活进行量化，包括：（i）通道关键激活量化，（ii）Rotary 位置嵌入本地化量化，（iii）非均匀 KV 缓存量化，（iv）向量稠密稀疏量化，和（v）Q-Norm。通过将这些方法应用于 LLaMA、LLaMA-2 和 Mistral 模型，我们在 Wikitext-2 和 C4 数据集上使用 3 位量化实现了小于 0.1 的困惑度退化，优于现有方法。我们的方法使得在单个 A100-80GB GPU 上可以为 LLaMA-7B 模型提供长达 100 万的上下文长度，而在 8-GPU 系统上可以提供长达 1000 万的上下文长度。

Jan, 2024

LLoCO：离线学习长上下文

通过上下文压缩和领域内参数高效微调，我们提出了一种解决大型语言模型处理长篇内容的挑战的新方法，使得 LLM 能够创建原始上下文的简洁表示，并有效地检索相关信息以准确回答问题。我们介绍了 LLoCO，一种通过使用 LoRA 组合上下文压缩、检索和参数高效微调的技术，将 4k 个令牌的 LLaMA2-7B 模型的有效上下文窗口扩展到处理高达 128k 个令牌。在几个长上下文问答数据集上对我们的方法进行评估，结果显示 LLoCO 在推理过程中使用 $30 imes$ 更少的令牌，显著优于上下文学习，实现了高达 $7.62 imes$ 的加速，大大降低了长文档问答的成本，为高效处理长上下文提供了有希望的解决方案。我们的代码公开可用于该 https URL。

Apr, 2024

长上下文语言模型对长上下文学习困难

在极限标签分类领域中，本研究介绍了一种专门的基准测试（LIConBench），重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上，发现在 20K 的令牌长度下，大部分大语言模型表现相对良好且受益于利用长上下文窗口，然而，在上下文窗口超过 20K 后，除了 GPT-4 之外，大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战，我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。

Apr, 2024