EMNLPOct, 2023

对抗多头:利用注意力头嵌入实现高效参数的多头注意力

TL;DR我们提出了一种使用单个共享投影矩阵和多个头嵌入(MHE)的替代模块,实验证明我们的 MHE 关注机制在多个下游任务上显著提高了内存效率,并且相对于 MHA 仅需要可忽略的附加参数。