BriefGPT.xyz
Ask
alpha
关键词
generative inference
搜索结果 - 2
模型指导的内容丢弃方法:用于大型语言模型的自适应 KV 缓存压缩
通过自适应 KV 缓存压缩的插拔式方法,我们引入了一种减少大型语言模型(LLM)生成推理内存占用的方法。通过有针对性的分析注意力模块的内在结构,我们构建自适应 KV 缓存:针对局部上下文的注意力头强调接触范围短的上下文,针对特殊标记的注意力
→
PDF
9 months ago
ICLR
GPTQ: 针对生成式预训练变换器的准确后训练量化
本研究提出了 GPTQ 一种新的一次性量化方法,可以在 4 个 GPU 小时内将 GPT 模型的参数数量降至 1750 亿,每个权重只需使用 3 到 4 个比特位即可恢复几乎与未压缩基线相同的准确性,在单个 GPU 内执行 1750 亿参数
→
PDF
2 years ago
Prev
Next