BriefGPT.xyz
Ask
alpha
关键词
kvquant
搜索结果 - 1
KVQuant: 通过 KV 缓存量化实现 1000 万上下文长度的 LLM 推断
LLMs 在大文本分析和摘要等需要大上下文窗口的应用中得到越来越广泛的应用,KV 缓存激活成为推断过程中存储器占用的主要贡献者。本研究通过引入新颖的方法对缓存的 KV 激活进行量化,包括:(i)通道关键激活量化,(ii)Rotary 位置嵌
→
PDF
5 months ago
Prev
Next