May, 2023
GQA:从多头检查点训练广义多查询 Transformer 模型
GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebrón...
TL;DR通过增加中间的键值头数目,我们提出了一种组合查询注意力 (GQA) 的方法,它是多查询注意力 (MQA) 的推广,能够实现训练速度和质量之间的平衡。