Apr, 2024

SnapKV: LLM 在生成之前了解您要寻找的内容

TL;DRSnapKV 是一种创新且无需微调的方法,它通过选择每个注意力头的重要键值位置来高效地减小键值存储缓存的大小,从而在处理长输入序列时显著降低了计算开销和内存占用,同时保持了与基准模型相当的性能。