学习使用 Gist Tokens 压缩提示

Apr, 2023

Learning to Compress Prompts with Gist Tokens

Jesse Mu, Xiang Lisa Li, Noah Goodman

TL;DR本文提出一种名为 gisting 的方法，使得语言模型可以在不受到提示限制的情况下进行任务处理，通过在指令微调中训练 “要旨” 模型，并仅仅在解码过程中使用它们，可以大大压缩提示量，使得模型可以在保持输出质量的前提下获得更高的计算效率和存储效率。

Abstract

Prompting is now the primary way to utilize the multitask capabilities of language models (LMs), but prompts occupy valuable space in the input context window, and re-encoding the same prompt is computationally i

multitask capabilities language models finetuning distillation methods compute efficiency

发现论文，激发创造

言之有物：通过要旨压缩理解提示学习行为

该研究提出了 Gist COnditioned deCOding (Gist-COCO) 模型，利用编码器和解码器构建语言模型，并使用附加的编码器插件模块进行输入压缩，将表示的要点标记转化为要点提示，以高压缩率优于以往的要点压缩模型，辅助大型语言模型在不同任务中的表现。

Feb, 2024

LLMLingua：压缩大型语言模型推理加速的提示

LLMLingua 是一种粗粒度到细粒度的提示压缩方法，利用预算控制器、基于令牌级的迭代压缩算法和基于指令调整的语言模型分布对齐方法，实现高压缩率下语义完整性的维持，有效加速模型推理并降低成本。在多个不同场景的数据集上的实验和分析表明，该方法在性能上达到了最先进的水平，并且能够在保证性能损失很小的情况下进行高达 20 倍的压缩。

Oct, 2023

LLMLingua-2: 数据去噪以提升高效及精确的无要求任务的提示压缩

通过使用数据蒸馏方法，我们提出了一种基于 Transformer 编码器的令牌分类问题的任务无关提示压缩方法，以更高的效率压缩提示，降低延迟。

Mar, 2024

GistScore：使用 Gist 瓶颈学习更好的上下文示例选择表示

使用 GistScore 度量示例 Gisting 的新方法，基于 Fine-tuned 模型实现最新的 in-context learning（ICL），在 21 个不同数据集上，可以获得超过 20% 绝对平均增益，且速度比之前最佳的非训练法提高了数千倍。

Nov, 2023

压缩后即提示：通过可转移提示提高 LLM 推理的准确性和效率平衡

本文介绍了一种新的压缩大型语言模型（LLM）的方法：通过使用精确的提示信息作为输入来提高压缩模型的预测准确性，以平衡其准确性和效率。研究表明，压缩 LLMs 通过这种提示学习方法能够匹配或超过原模型的准确性，这为 LLMs 的推断和扩展提供了新的可能性。

May, 2023

LongLLMLingua：通过提示压缩加速和增强长背景下的 LLMs

通过压缩提示信息，提高大型语言模型对关键信息的感知能力，从而解决高计算 / 财务成本、延迟时间长和性能劣势等问题。在各种长篇上下文场景下，通过使用 LongLLMLingua 压缩的提示信息，大型语言模型的性能得到提高，成本降低，以及端到端延迟时间减少。

Oct, 2023

离散提示压缩与强化学习

本研究提出了一种基于强化学习的离散提示压缩方法 (PCRL)，通过使用计算效率高的策略网络直接编辑提示，实现对各种类型的语言模型以及解码器和编码器 - 解码器架构的灵活应用，同时减少平均令牌数量 24.6%，且保持性能不变。此外，通过多种分析，揭示了提示中令牌重要性的理解。

Aug, 2023

通过概括研究超调整的有效性

基于 Gisting 的超网络是经济且易于实现的方法，能够使用改进的注意力掩码将信息压缩为更少的令牌表示形式。在实验中展示了 HyperLlama 模型可以将少样本示例中的信息有效地压缩为软前缀，并且这些软前缀可以作为更好的初始化方式进行进一步的前缀调优。然而，与完全关注少样本内文示例的多任务微调语言模型相比，它们的经验性能表现参差不齐。

Feb, 2024

内部化循环提示在大型语言模型微调中节约推理成本

通过渐进性微调将提示知识内化到模型参数中，我们的方法能够使 LLMs 在新任务中模拟人类学习过程，并逐渐适应该任务，从而减少推理标记超过 90％、加速推理 4.2 倍、节省 88.3％的费用。

Jul, 2024

(动态) 提示可能足以修复压缩的 LLM 模型

大型语言模型，困惑度，压缩，基于提示的恢复，推理时动态提示。

Oct, 2023