BriefGPT.xyz
大模型
Ask
alpha
关键词
salient tokens
搜索结果 - 1
ZipCache:准确高效的键值缓存量化与显著令牌识别
ZipCache 是一种用于 LLMs 的准确而高效的 KV 缓存量化方法,通过通道可分离的逐标记量化方案可显著减少量化参数的内存开销,并通过考虑注意力矩阵的下三角特性提出了规范化注意力分数作为识别重要标记的有效度量,以获得更高的压缩比,同
→
PDF
a month ago
Prev
Next