LLMLingua-2: 数据去噪 以提升高效及精确的无要求任务的提示压缩
LLMLingua 是一种粗粒度到细粒度的提示压缩方法,利用预算控制器、基于令牌级的迭代压缩算法和基于指令调整的语言模型分布对齐方法,实现高压缩率下语义完整性的维持,有效加速模型推理并降低成本。在多个不同场景的数据集上的实验和分析表明,该方法在性能上达到了最先进的水平,并且能够在保证性能损失很小的情况下进行高达 20 倍的压缩。
Oct, 2023
通过压缩提示信息,提高大型语言模型对关键信息的感知能力,从而解决高计算 / 财务成本、延迟时间长和性能劣势等问题。在各种长篇上下文场景下,通过使用 LongLLMLingua 压缩的提示信息,大型语言模型的性能得到提高,成本降低,以及端到端延迟时间减少。
Oct, 2023
本文介绍了一种新的压缩大型语言模型(LLM)的方法:通过使用精确的提示信息作为输入来提高压缩模型的预测准确性,以平衡其准确性和效率。研究表明,压缩 LLMs 通过这种提示学习方法能够匹配或超过原模型的准确性,这为 LLMs 的推断和扩展提供了新的可能性。
May, 2023
通过将较长的提示转换为自然语言格式的胶囊式提示,利用奖励函数和长度约束来优化 Nano-Capsulator 框架,该框架可以在保持提示效用和可迁移性的同时,减少 81.4%的长度、提高推理速度 4.5 倍,并降低 80.1%的预算开销。
Feb, 2024
本文提出一种名为 gisting 的方法,使得语言模型可以在不受到提示限制的情况下进行任务处理,通过在指令微调中训练 “要旨” 模型,并仅仅在解码过程中使用它们,可以大大压缩提示量,使得模型可以在保持输出质量的前提下获得更高的计算效率和存储效率。
Apr, 2023
该研究提出了一种名为 SoftPromptComp 的创新框架,它通过集成自然语言摘要、软提示压缩和增强型效用保留机制来为大语言模型提供流畅的上下文处理。研究结果表明,该框架显著降低了计算负担,并提高了大语言模型在各项基准测试中的效力,同时保持或增强所生成内容的质量。该研究为优化语言模型提供了见解,并探讨了软提示和摘要技术作为未来自然语言处理解决方案的关键工具的潜力。
Apr, 2024
本研究提出了一种基于强化学习的离散提示压缩方法 (PCRL),通过使用计算效率高的策略网络直接编辑提示,实现对各种类型的语言模型以及解码器和编码器 - 解码器架构的灵活应用,同时减少平均令牌数量 24.6%,且保持性能不变。此外,通过多种分析,揭示了提示中令牌重要性的理解。
Aug, 2023
研究压缩语言模型所需要的提示,表明即使是极端压缩,也可大量保留有关原始提示的抽象信息和一般态度,并可以用于解码时间算法以控制生成文本的可控性和毒性减少。
Oct, 2022