Mar, 2025
KV-Distill:几乎无损可学习的上下文压缩方法用于大型语言模型
KV-Distill: Nearly Lossless Learnable Context Compression for LLMs
TL;DR本研究针对标准Transformer中自注意力机制的二次复杂性,提出了KV-Distill框架,以压缩长上下文的KV缓存,从而显著缩短表示并保持预训练模型能力。实验表明,KV-Distill在提取任务中的表现优于其他压缩技术,能够在不损失下游性能的情况下,减少上下文长度达99%。