该研究提出了 Gist COnditioned deCOding (Gist-COCO) 模型,利用编码器和解码器构建语言模型,并使用附加的编码器插件模块进行输入压缩,将表示的要点标记转化为要点提示,以高压缩率优于以往的要点压缩模型,辅助大型语言模型在不同任务中的表现。
Feb, 2024
LLMLingua 是一种粗粒度到细粒度的提示压缩方法,利用预算控制器、基于令牌级的迭代压缩算法和基于指令调整的语言模型分布对齐方法,实现高压缩率下语义完整性的维持,有效加速模型推理并降低成本。在多个不同场景的数据集上的实验和分析表明,该方法在性能上达到了最先进的水平,并且能够在保证性能损失很小的情况下进行高达 20 倍的压缩。
Oct, 2023
通过使用数据蒸馏方法,我们提出了一种基于 Transformer 编码器的令牌分类问题的任务无关提示压缩方法,以更高的效率压缩提示,降低延迟。
Mar, 2024
使用 GistScore 度量示例 Gisting 的新方法,基于 Fine-tuned 模型实现最新的 in-context learning(ICL),在 21 个不同数据集上,可以获得超过 20% 绝对平均增益,且速度比之前最佳的非训练法提高了数千倍。
Nov, 2023
本文介绍了一种新的压缩大型语言模型(LLM)的方法:通过使用精确的提示信息作为输入来提高压缩模型的预测准确性,以平衡其准确性和效率。研究表明,压缩 LLMs 通过这种提示学习方法能够匹配或超过原模型的准确性,这为 LLMs 的推断和扩展提供了新的可能性。
May, 2023
通过压缩提示信息,提高大型语言模型对关键信息的感知能力,从而解决高计算 / 财务成本、延迟时间长和性能劣势等问题。在各种长篇上下文场景下,通过使用 LongLLMLingua 压缩的提示信息,大型语言模型的性能得到提高,成本降低,以及端到端延迟时间减少。
本研究提出了一种基于强化学习的离散提示压缩方法 (PCRL),通过使用计算效率高的策略网络直接编辑提示,实现对各种类型的语言模型以及解码器和编码器 - 解码器架构的灵活应用,同时减少平均令牌数量 24.6%,且保持性能不变。此外,通过多种分析,揭示了提示中令牌重要性的理解。
Aug, 2023
基于 Gisting 的超网络是经济且易于实现的方法,能够使用改进的注意力掩码将信息压缩为更少的令牌表示形式。在实验中展示了 HyperLlama 模型可以将少样本示例中的信息有效地压缩为软前缀,并且这些软前缀可以作为更好的初始化方式进行进一步的前缀调优。然而,与完全关注少样本内文示例的多任务微调语言模型相比,它们的经验性能表现参差不齐。
通过渐进性微调将提示知识内化到模型参数中,我们的方法能够使 LLMs 在新任务中模拟人类学习过程,并逐渐适应该任务,从而减少推理标记超过 90%、加速推理 4.2 倍、节省 88.3%的费用。
Jul, 2024
大型语言模型,困惑度,压缩,基于提示的恢复,推理时动态提示。