将语言模型适应于压缩上下文

May, 2023

Adapting Language Models to Compress Contexts

Alexis Chevalier, Alexander Wettig, Anirudh Ajith, Danqi Chen

TL;DR该论文旨在介绍一种新型的 AutoCompressors 语言模型，可以将长文档内容压缩成简洁的总结向量，并将其用作语言模型的轻提示，从而提高了模型处理长文本时间的效率，并在任务演示、检索等领域取得了显著进展。

Abstract

Transformer-based language models (LMs) are powerful and widely-applicable tools, but their usefulness is constrained by a finite context window and the expensive computational cost of processing long text documents. We propose to adapt pre-trained LMs into →

language models autocompressors long contexts task demonstrations inference

发现论文，激发创造

通过语义压缩扩展大型语言模型的上下文窗口

提出了一种新颖的语义压缩方法，使得基于 Transformer 的大型语言模型（LLM）能够适用于长度为原先的 6-8 倍的文本，而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型，减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明，该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口，并且在减少相关计算开销的同时能够保持生成文本的流畅性。

Dec, 2023

通过软提示压缩使 LLMs 适应高效上下文处理

该研究提出了一种名为 SoftPromptComp 的创新框架，它通过集成自然语言摘要、软提示压缩和增强型效用保留机制来为大语言模型提供流畅的上下文处理。研究结果表明，该框架显著降低了计算负担，并提高了大语言模型在各项基准测试中的效力，同时保持或增强所生成内容的质量。该研究为优化语言模型提供了见解，并探讨了软提示和摘要技术作为未来自然语言处理解决方案的关键工具的潜力。

Apr, 2024

压缩上下文以增强大型语言模型的推理效率

使用选择性上下文方法（Selective Context）可以显著提高大型语言模型（LLMs）的推理效率，减少内存占用和推理时间，并在维持可比较性能的基础上实现对上下文成本的 50％降低，36％的推理内存使用率降低以及 32％的推理时间降低。

Oct, 2023

RECOMP: 通过压缩和选择性增强改进基于检索的语言模型

将检索到的文档压缩为文本摘要，以降低计算成本并减轻语言模型的负担，以提高任务性能；在语言建模和开放域问题回答任务中，以最低为 6% 的压缩率实现性能上最小损失，并在给定一种语言模型训练方法时能够迁移到其他语言模型，并提供与检索文档基本一致的摘要。

Oct, 2023

在线语言模型交互的压缩上下文记忆

本文提出一种在在线场景（如 ChatGPT）中用于 Transformer 语言模型的新型上下文压缩方法，将不断扩展的上下文压缩到紧凑的记忆空间中，并通过轻量级条件 LoRA 在推理过程中实现对压缩上下文记忆的操作，从而减小内存和注意力操作，实现与完整上下文模型相当的性能，但所需上下文内存空间仅为原来的五分之一。

Dec, 2023

内上下文格式：大型语言模型的快速压缩上下文

通过使用 In-Context Former 方法，我们成功减少了基于 Transformer 的大型语言模型的压缩成本，并使得实时压缩的场景成为可能。

Jun, 2024

使用哨兵标记对自回归 Transformer 进行上下文压缩

通过增量压缩指定范围的令牌的中间激活，我们提出了一种即插即用的方法，从而在处理后续上下文时减少了内存和计算成本。实验证明，与稀疏注意力基线相比，我们的方法在流畅度、n-gram 匹配和语义相似性方面具有优势。最后，我们全面评估了上下文压缩对系统改进的益处。

Oct, 2023

循环上下文压缩：高效扩大 LLM 的上下文窗口

使用递归上下文压缩方法（RCC）有效地扩展了基于 Transformer 的大型语言模型 (LLMs) 的上下文窗口长度，解决了模型回应质量变差的问题，并以接近 0.95 的 BLEU4 得分在文本重建任务中实现了高达 32 倍的压缩率，以及在 1M 序列长度的密码检索任务中近乎 100％的准确率，同时在长文本问答任务中表现出与非压缩方法相媲美的性能，并显著节省了存储资源。

Jun, 2024

学习压缩自然语言格式中的提示

通过将较长的提示转换为自然语言格式的胶囊式提示，利用奖励函数和长度约束来优化 Nano-Capsulator 框架，该框架可以在保持提示效用和可迁移性的同时，减少 81.4％的长度、提高推理速度 4.5 倍，并降低 80.1％的预算开销。

Feb, 2024

在神经压缩文本上训练 LLMs

本文探讨了在高度压缩的文本上训练大型语言模型（LLMs）的想法。通过提出等信息窗口这一新的压缩技术，我们展示了在神经压缩文本上有效学习的方法，该方法在规模上得到了改进，并在复杂度和推理速度基准测试中大大优于字节级基准。

Apr, 2024