BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-query attention
搜索结果 - 3
LLM 中高效压缩 KV 头
在本文中,我们探索了 Key-Value 缓存的低秩特性,并提出了一种压缩 Key-Value 头部的新方法,该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能,为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。
PDF
23 days ago
Transformer 技巧:去除跳过机制的权重
使用等效的版本适用于多查询关注和分组查询关注的无跳过变压器,从而降低其计算和内存复杂性。
PDF
3 months ago
GQA:从多头检查点训练广义多查询 Transformer 模型
通过增加中间的键值头数目,我们提出了一种组合查询注意力 (GQA) 的方法,它是多查询注意力 (MQA) 的推广,能够实现训练速度和质量之间的平衡。
PDF
a year ago
Prev
Next