ACLMay, 2023

多头注意力的支柱寻找

TL;DR本文提出了使用最小冗余特征选择的思想,通过聚焦于最具代表性和独特性的特征,采用自监督群组约束进行训练的 Grouped Head Attention 模型,以及通过投票去除冗余头部来实现更有效和高效的多头自注意力模型。实验结果表明,该方法在三个基准任务上显著提高性能的同时,压缩参数。