Jun, 2024
基于级联 KV 缓存的无需训练的滑动窗口上下文的指数扩展
Training-Free Exponential Extension of Sliding Window Context with Cascading KV Cache
Jeffrey Willette, Heejun Lee, Youngwan Lee, Myeongjae Jeon, Sung Ju Hwang
TL;DR在基于 transformer 的大型语言模型(LLMs)中,通过使用一个保存了初始 token 和固定大小的滑动窗口的键值(KV)缓存,以线性复杂度实现稳定的流式生成,并能够在总缓存大小不变的情况下存储更远过去的 token,取得了 5.6% 在长上下文生成(LongBench)、1.2% 在流式困惑度(PG19)和 0.6% 在语言理解(MMLU STEM)方面的改进。