EMNLPOct, 2023
对抗多头:利用注意力头嵌入实现高效参数的多头注意力
Pit One Against Many: Leveraging Attention-head Embeddings for Parameter-efficient Multi-head Attention
Huiyin Xue, Nikolaos Aletras
TL;DR我们提出了一种使用单个共享投影矩阵和多个头嵌入(MHE)的替代模块,实验证明我们的 MHE 关注机制在多个下游任务上显著提高了内存效率,并且相对于 MHA 仅需要可忽略的附加参数。