Jun, 2020
多头注意力:合作而非串联
Multi-Head Attention: Collaborate Instead of Concatenate
Jean-Baptiste Cordonnier, Andreas Loukas, Martin Jaggi
TL;DR该论文提出了一种协作式多头注意力层,该方法通过共享 key/query 投影来降低注意力层中参数的数量,可以用于任何变压器体系结构,并对语言理解、机器翻译和计算机视觉方面进行了验证和实验,并可将预训练的多头注意力层重新参数化为协同注意力层,使 key 和 query 投影的大小减小了 4 倍,而准确性和速度保持不变。