Jun, 2024

LoCoCo:为了长上下文压缩而引入的卷积操作

TL;DR本文介绍了一种用于大型语言模型中处理长上下文序列的新方法,名为 Dropping In Convolutions for Long Context Compression(LoCoCo)。LoCoCo 通过使用一个固定大小的键 - 值(KV)缓存来提高推理和微调阶段的效率,通过自适应融合技术将先前的 KV 对与输入的标记混合,以最小化上下文信息的损失并确保准确的注意力建模。通过动态计算每个 KV 缓存槽的混合权重来实现标记的整合。相比于相同缓存大小的基准模型,LoCoCo 在推理期间成功地将多达 3482 个标记压缩到 128 大小的 KV 缓存中,并保持了与完整序列相当的性能提升了 0.2791 个单位的准确率。在后训练调优过程中,我们还使用大小为 512 的 KV 缓存有效地将上下文长度从 4K 扩展到 32K,达到了与整个序列进行微调相似的性能。