(动态) 提示可能足以修复压缩的 LLM 模型
本文介绍了一种新的压缩大型语言模型(LLM)的方法:通过使用精确的提示信息作为输入来提高压缩模型的预测准确性,以平衡其准确性和效率。研究表明,压缩 LLMs 通过这种提示学习方法能够匹配或超过原模型的准确性,这为 LLMs 的推断和扩展提供了新的可能性。
May, 2023
该研究提出了一种名为 SoftPromptComp 的创新框架,它通过集成自然语言摘要、软提示压缩和增强型效用保留机制来为大语言模型提供流畅的上下文处理。研究结果表明,该框架显著降低了计算负担,并提高了大语言模型在各项基准测试中的效力,同时保持或增强所生成内容的质量。该研究为优化语言模型提供了见解,并探讨了软提示和摘要技术作为未来自然语言处理解决方案的关键工具的潜力。
Apr, 2024
LLMLingua 是一种粗粒度到细粒度的提示压缩方法,利用预算控制器、基于令牌级的迭代压缩算法和基于指令调整的语言模型分布对齐方法,实现高压缩率下语义完整性的维持,有效加速模型推理并降低成本。在多个不同场景的数据集上的实验和分析表明,该方法在性能上达到了最先进的水平,并且能够在保证性能损失很小的情况下进行高达 20 倍的压缩。
Oct, 2023
通过使用数据蒸馏方法,我们提出了一种基于 Transformer 编码器的令牌分类问题的任务无关提示压缩方法,以更高的效率压缩提示,降低延迟。
Mar, 2024
通过将较长的提示转换为自然语言格式的胶囊式提示,利用奖励函数和长度约束来优化 Nano-Capsulator 框架,该框架可以在保持提示效用和可迁移性的同时,减少 81.4%的长度、提高推理速度 4.5 倍,并降低 80.1%的预算开销。
Feb, 2024
本研究提出了一种基于强化学习的离散提示压缩方法 (PCRL),通过使用计算效率高的策略网络直接编辑提示,实现对各种类型的语言模型以及解码器和编码器 - 解码器架构的灵活应用,同时减少平均令牌数量 24.6%,且保持性能不变。此外,通过多种分析,揭示了提示中令牌重要性的理解。
Aug, 2023
通过压缩提示信息,提高大型语言模型对关键信息的感知能力,从而解决高计算 / 财务成本、延迟时间长和性能劣势等问题。在各种长篇上下文场景下,通过使用 LongLLMLingua 压缩的提示信息,大型语言模型的性能得到提高,成本降低,以及端到端延迟时间减少。
Oct, 2023
自动选择给定输入的最佳提示,克服手动设计有效提示的挑战,通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器,并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。
Apr, 2024