Dec, 2023

在线语言模型交互的压缩上下文记忆

TL;DR本文提出一种在在线场景(如 ChatGPT)中用于 Transformer 语言模型的新型上下文压缩方法,将不断扩展的上下文压缩到紧凑的记忆空间中,并通过轻量级条件 LoRA 在推理过程中实现对压缩上下文记忆的操作,从而减小内存和注意力操作,实现与完整上下文模型相当的性能,但所需上下文内存空间仅为原来的五分之一。