Jun, 2024

LLM 中高效压缩 KV 头

TL;DR在本文中,我们探索了 Key-Value 缓存的低秩特性,并提出了一种压缩 Key-Value 头部的新方法,该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能,为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。