Feb, 2024

使用 KV 缓存压缩合成循环以实现高效的 LLM 推理

TL;DR通过整合一个(几乎不消耗)常量大小的缓存与基于驱逐策略的缓存方法,提出了 LESS,以在过去的解码步骤中查询所有标记。它在时间上保留信息的能力可在多种任务中展现出优点,帮助降低性能差距和提高效率。