EMNLPOct, 2023
压缩上下文以增强大型语言模型的推理效率
Compressing Context to Enhance Inference Efficiency of Large Language Models
Yucheng Li, Bo Dong, Chenghua Lin, Frank Guerin
TL;DR使用选择性上下文方法(Selective Context)可以显著提高大型语言模型(LLMs)的推理效率,减少内存占用和推理时间,并在维持可比较性能的基础上实现对上下文成本的 50%降低,36%的推理内存使用率降低以及 32%的推理时间降低。