评估零射击长上下文语言模型压缩

Jun, 2024

评估零射击长上下文语言模型压缩

Evaluating Zero-Shot Long-Context LLM Compression

Chenyu Wang, Yihan Wang

TL;DR在长语境下，评估零样本压缩技术对大型语言模型 (LLMs) 的有效性，发现在应用某些压缩方法时，计算错误的趋势会增加。提出一种假设来解释不同 LLM 压缩技术的不同行为，并探索减轻某些技术在长语境下性能下降的方法。

Abstract

This study evaluates the effectiveness of zero-shot compression techniques on large language models (LLMs) under long-context. We identify

zero-shot compression techniques large language models long-context computational errors llm compression techniques

发现论文，激发创造

通过语义压缩扩展大型语言模型的上下文窗口

提出了一种新颖的语义压缩方法，使得基于 Transformer 的大型语言模型（LLM）能够适用于长度为原先的 6-8 倍的文本，而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型，减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明，该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口，并且在减少相关计算开销的同时能够保持生成文本的流畅性。

Dec, 2023

KV 缓存压缩，我们必须拿什么作为交换？长上下文能力方法的全面基准测试

大语言模型的长上下文能力是其关键能力之一，本研究填补了现有方法的空白，并评估了 10 多种最新方法在长上下文任务领域的表现，揭示了许多以前未知的现象，为未来长上下文能力大语言模型的发展提供了洞见和工作平台。

Jul, 2024

压缩上下文以增强大型语言模型的推理效率

使用选择性上下文方法（Selective Context）可以显著提高大型语言模型（LLMs）的推理效率，减少内存占用和推理时间，并在维持可比较性能的基础上实现对上下文成本的 50％降低，36％的推理内存使用率降低以及 32％的推理时间降低。

Oct, 2023

ZeroDL：基于大型语言模型的零样本分布学习文本聚类

我们提出了一种简单但有效的方法来将任务上下文化为特定的大语言模型，通过观察给定的大语言模型如何描述目标数据集，聚合大语言模型的开放式推理结果，并最终将聚合的元信息纳入实际任务中，我们展示了这种方法在文本聚类任务中的有效性，并通过上述过程的示例突出了上下文化的重要性。

Jun, 2024

基于压缩的 LLM 排名

我们将理解过程视为信息压缩，并提出了一种基于无损数据压缩的大型语言模型（LLMs）排序方法。我们使用五个大型语言模型作为压缩的先验，并比较它们在困难的自然语言处理任务中的性能，包括句子完成、问题回答和共指消解。实验结果表明，压缩比率和模型性能呈正相关，因此可以作为评估大型语言模型的通用指标。

Jun, 2024

LLoCO：离线学习长上下文

通过上下文压缩和领域内参数高效微调，我们提出了一种解决大型语言模型处理长篇内容的挑战的新方法，使得 LLM 能够创建原始上下文的简洁表示，并有效地检索相关信息以准确回答问题。我们介绍了 LLoCO，一种通过使用 LoRA 组合上下文压缩、检索和参数高效微调的技术，将 4k 个令牌的 LLaMA2-7B 模型的有效上下文窗口扩展到处理高达 128k 个令牌。在几个长上下文问答数据集上对我们的方法进行评估，结果显示 LLoCO 在推理过程中使用 $30 imes$ 更少的令牌，显著优于上下文学习，实现了高达 $7.62 imes$ 的加速，大大降低了长文档问答的成本，为高效处理长上下文提供了有希望的解决方案。我们的代码公开可用于该 https URL。

Apr, 2024

LongLLMLingua：通过提示压缩加速和增强长背景下的 LLMs

通过压缩提示信息，提高大型语言模型对关键信息的感知能力，从而解决高计算 / 财务成本、延迟时间长和性能劣势等问题。在各种长篇上下文场景下，通过使用 LongLLMLingua 压缩的提示信息，大型语言模型的性能得到提高，成本降低，以及端到端延迟时间减少。

Oct, 2023

长上下文语言模型对长上下文学习困难

在极限标签分类领域中，本研究介绍了一种专门的基准测试（LIConBench），重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上，发现在 20K 的令牌长度下，大部分大语言模型表现相对良好且受益于利用长上下文窗口，然而，在上下文窗口超过 20K 后，除了 GPT-4 之外，大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战，我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。

Apr, 2024

通过数据压缩评估大型语言模型的泛化能力和鲁棒性

我们提出了一种基于无损数据压缩的评估方法，用于测试模型训练截断后的预测能力广义化情况。我们收集了从 2017 年到 2023 年的 83 个月的全面测试数据，并根据模型的训练数据截断将数据分为训练和测试期。我们通过测试期的压缩性能作为对未见数据广义化的度量，以及训练期和测试期之间的性能差距作为鲁棒性的度量来进行测量。实验测试了 14 种具有各种规模的代表性大型语言模型，包括维基百科、新闻文章、代码、arXiv 论文和多模态数据。我们发现许多模型的压缩率在其截断日期后显著降低，但 Mistral 和 Llama-2 等模型在性能和鲁棒性之间取得了良好的平衡。结果还表明，模型在新闻和代码数据上很难广义化，但在 arXiv 论文上表现特别好。我们还发现上下文大小和标记化实现对整体压缩性能有很大影响。

Feb, 2024

LLMZip：使用大语言模型的无损文本压缩

使用大型语言模型 LLaMA-7B，我们给出了一组英文熵的渐进上界估计，并基于该估计提出了一种结合大型语言模型和无损压缩方案的英文文本无损压缩算法，初步结果显示出优于 BSC，ZPAQ 和 paq8h 等现有文本压缩方案的性能。

Jun, 2023