Jun, 2024

基于级联 KV 缓存的无需训练的滑动窗口上下文的指数扩展

TL;DR在基于 transformer 的大型语言模型(LLMs)中,通过使用一个保存了初始 token 和固定大小的滑动窗口的键值(KV)缓存,以线性复杂度实现稳定的流式生成,并能够在总缓存大小不变的情况下存储更远过去的 token,取得了 5.6% 在长上下文生成(LongBench)、1.2% 在流式困惑度(PG19)和 0.6% 在语言理解(MMLU STEM)方面的改进。