LongLLMLingua：通过提示压缩加速和增强长背景下的LLMs

Oct, 2023

LongLLMLingua：通过提示压缩加速和增强长背景下的LLMs

LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression

Huiqiang Jiang, Qianhui Wu, Xufang Luo, Dongsheng Li, Chin-Yew Lin...

TL;DR通过压缩提示信息，提高大型语言模型对关键信息的感知能力，从而解决高计算/财务成本、延迟时间长和性能劣势等问题。在各种长篇上下文场景下，通过使用LongLLMLingua压缩的提示信息，大型语言模型的性能得到提高，成本降低，以及端到端延迟时间减少。

Abstract

In long context scenarios, large language models (LLMs) face three main challenges: higher computational/financial cost, longer latency, and inferior performance. Some studies reveal that the →

发现论文，激发创造

大型语言模型的语义压缩

本研究探讨了大型语言模型在近似压缩和语义压缩方面的应用及其效果评价，并提出了二元评价指标：是否精确重构 (ERE)和语义重构有效性 (SRE)，结果表明 GPT-4 可能有效地压缩和重构文本，并保留原始文本的语义要素。

Apr, 2023

压缩后即提示：通过可转移提示提高LLM推理的准确性和效率平衡

本文介绍了一种新的压缩大型语言模型（LLM）的方法：通过使用精确的提示信息作为输入来提高压缩模型的预测准确性，以平衡其准确性和效率。研究表明，压缩LLMs通过这种提示学习方法能够匹配或超过原模型的准确性，这为LLMs的推断和扩展提供了新的可能性。

May, 2023

大型语言模型的模型压缩综述

该论文提供了针对大型语言模型的模型压缩技术的综述调查，涵盖量化、修剪、知识蒸馏等各种方法，并探讨了压缩后的大型语言模型的基准策略和评估指标，旨在促进效率和实际应用的提升，为领域的未来发展奠定了基础。

Aug, 2023

压缩LLMs：真实很少纯粹而简单

尽管现代大型语言模型在取得显著成就的同时遇到了过高的计算和内存占用问题，但最近的研究工作展示了基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了显著成功。本研究介绍了一种名为LLM-KICK的压缩语言模型评估协议，通过其揭示了当前最先进的压缩方法的优点和缺点，并展示了稀疏化和量化对于语言理解、推理、生成、检索和摘要等任务的影响。我们希望这项研究能够促进更好的语言模型压缩方法的发展。

Oct, 2023

LLMLingua：压缩大型语言模型推理加速的提示

LLMLingua是一种粗粒度到细粒度的提示压缩方法，利用预算控制器、基于令牌级的迭代压缩算法和基于指令调整的语言模型分布对齐方法，实现高压缩率下语义完整性的维持，有效加速模型推理并降低成本。在多个不同场景的数据集上的实验和分析表明，该方法在性能上达到了最先进的水平，并且能够在保证性能损失很小的情况下进行高达20倍的压缩。

Oct, 2023

LLMLingua-2: 数据去噪以提升高效及精确的无要求任务的提示压缩

通过使用数据蒸馏方法，我们提出了一种基于Transformer编码器的令牌分类问题的任务无关提示压缩方法，以更高的效率压缩提示，降低延迟。

Mar, 2024

SelfCP: 使用冻结的大型语言模型将长提示压缩至1/12

本文提出了 SelfCP，通过使用 Large Language Models （LLMs）自身来将长提示压缩为紧凑的虚拟标记，实现了无条件和有条件提示的压缩，适应标准任务和具有特定目标的任务。结果表明，压缩的虚拟标记可以有效地替代原始提示。

May, 2024

基于上下文的句子编码的提示压缩以实现快速和改进的LLM推理

本研究解决了大型语言模型在推理过程中面临的上下文长度压缩问题，以降低计算成本并保留关键信息。提出了一种上下文感知的提示压缩技术，通过新颖的句子编码器为每个句子提供与问题相关性得分，显著提升了压缩效果和推理速度。研究结果表明，该方法在更短的上下文中更有效，出色地压缩相关信息。

Sep, 2024

大语言模型的提示压缩：一项综述

本研究针对使用大语言模型（LLMs）时长提示导致的内存和推理成本增加问题，探讨了提示压缩的有效方法。论文综述了硬提示和软提示的技术比较，分析了其机制，并提出了未来优化的方向，旨在推动该领域的进步。主要发现是提示压缩能显著提高大语言模型的效率，为进一步研究提供了潜在影响。

Oct, 2024

大语言模型的提示压缩：综述

本研究解决了大语言模型在复杂自然语言任务中对长格式提示的需求，从而导致的内存使用和推理成本上升的问题。通过对硬提示方法和软提示方法的比较，提出了一系列有效的提示压缩技术，并分析了它们的机制与适应性，为该领域的未来研究方向提供了重要见解。

Oct, 2024