Oct, 2023

压缩上下文以增强大型语言模型的推理效率

TL;DR使用选择性上下文方法(Selective Context)可以显著提高大型语言模型(LLMs)的推理效率,减少内存占用和推理时间,并在维持可比较性能的基础上实现对上下文成本的50%降低,36%的推理内存使用率降低以及32%的推理时间降低。