LongLLMLingua:通过提示压缩加速和增强长背景下的 LLMs
LLMLingua 是一种粗粒度到细粒度的提示压缩方法,利用预算控制器、基于令牌级的迭代压缩算法和基于指令调整的语言模型分布对齐方法,实现高压缩率下语义完整性的维持,有效加速模型推理并降低成本。在多个不同场景的数据集上的实验和分析表明,该方法在性能上达到了最先进的水平,并且能够在保证性能损失很小的情况下进行高达 20 倍的压缩。
Oct, 2023
该研究提出了一种名为 SoftPromptComp 的创新框架,它通过集成自然语言摘要、软提示压缩和增强型效用保留机制来为大语言模型提供流畅的上下文处理。研究结果表明,该框架显著降低了计算负担,并提高了大语言模型在各项基准测试中的效力,同时保持或增强所生成内容的质量。该研究为优化语言模型提供了见解,并探讨了软提示和摘要技术作为未来自然语言处理解决方案的关键工具的潜力。
Apr, 2024
通过使用数据蒸馏方法,我们提出了一种基于 Transformer 编码器的令牌分类问题的任务无关提示压缩方法,以更高的效率压缩提示,降低延迟。
Mar, 2024
本文介绍了一种新的压缩大型语言模型(LLM)的方法:通过使用精确的提示信息作为输入来提高压缩模型的预测准确性,以平衡其准确性和效率。研究表明,压缩 LLMs 通过这种提示学习方法能够匹配或超过原模型的准确性,这为 LLMs 的推断和扩展提供了新的可能性。
May, 2023
通过将较长的提示转换为自然语言格式的胶囊式提示,利用奖励函数和长度约束来优化 Nano-Capsulator 框架,该框架可以在保持提示效用和可迁移性的同时,减少 81.4%的长度、提高推理速度 4.5 倍,并降低 80.1%的预算开销。
Feb, 2024
提出了一种新颖的语义压缩方法,使得基于 Transformer 的大型语言模型(LLM)能够适用于长度为原先的 6-8 倍的文本,而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型,减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明,该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口,并且在减少相关计算开销的同时能够保持生成文本的流畅性。
Dec, 2023
本文介绍了一种用于大型语言模型(LLMs)的新型低延迟推断框架,使 LLMs 能够使用不完整的提示进行推断,并通过重新分配计算过程到提示输入阶段,实现了大幅度的延迟降低,从而显著提高用户与 LLMs 的交互体验。该框架灵活地管理模型对流式提示的可见性,允许它从不完整的提示中进行推断或等待附加提示。与使用完整提示的传统推断方法相比,我们的方法在 MMLU-Pro 数据集上表现出平均响应延迟减少 59%,同时保持相当的准确性。此外,我们的框架促进了不同模型之间的协同推断和输出。通过使用 LLM 进行推断和使用小型语言模型(SLM)进行输出,与 SLM 基线相比,我们在 MMLU-Pro 数据集上实现了平均响应延迟减少 68%,准确性提高了 5.5%。对于超过 20 个句子的长提示,响应延迟可以降低高达 93%。
Jun, 2024
本文提出了 SelfCP,通过使用 Large Language Models (LLMs)自身来将长提示压缩为紧凑的虚拟标记,实现了无条件和有条件提示的压缩,适应标准任务和具有特定目标的任务。结果表明,压缩的虚拟标记可以有效地替代原始提示。
May, 2024
该研究介绍了分解提示方法,用于探究英语为中心的大型语言模型在序列标注任务中对语言结构的理解能力,其研究结果表明分解提示优于迭代提示基线,在零样本和少样本情况下具备更高的效用和效率,并发现评估方法和提示中的指令使用对结果有影响,同时发现英语为中心的语言模型在多语言任务中表现优于多语言模型,从而对英语为中心的语言模型的多语言可迁移性进行了深入研究,为了解其多语言语言知识做出了贡献。
Feb, 2024