BriefGPT.xyz
Ask
alpha
关键词
uptraining
搜索结果 - 1
GQA:从多头检查点训练广义多查询 Transformer 模型
通过增加中间的键值头数目,我们提出了一种组合查询注意力 (GQA) 的方法,它是多查询注意力 (MQA) 的推广,能够实现训练速度和质量之间的平衡。
PDF
a year ago
Prev
Next