May, 2023

GQA:从多头检查点训练广义多查询 Transformer 模型

TL;DR通过增加中间的键值头数目,我们提出了一种组合查询注意力 (GQA) 的方法,它是多查询注意力 (MQA) 的推广,能够实现训练速度和质量之间的平衡。