Oct, 2023

LLMLingua:压缩大型语言模型推理加速的提示

TL;DRLLMLingua是一种粗粒度到细粒度的提示压缩方法,利用预算控制器、基于令牌级的迭代压缩算法和基于指令调整的语言模型分布对齐方法,实现高压缩率下语义完整性的维持,有效加速模型推理并降低成本。在多个不同场景的数据集上的实验和分析表明,该方法在性能上达到了最先进的水平,并且能够在保证性能损失很小的情况下进行高达20倍的压缩。