Jul, 2024

Transformer中的加权分组查询注意力

TL;DR我们提出了一种称为加权分组查询注意力(WGQA)的分组查询注意力的变体,引入了新的可学习参数来增强T5解码器注意力块中的键和值头,使模型能够在微调期间进行加权平均,并在推理过程中无需额外开销与传统的多头注意力(MHA)性能相当。