ACLMay, 2023
多头注意力的支柱寻找
Finding the Pillars of Strength for Multi-Head Attention
Jinjie Ni, Rui Mao, Zonglin Yang, Han Lei, Erik Cambria
TL;DR本文提出了使用最小冗余特征选择的思想,通过聚焦于最具代表性和独特性的特征,采用自监督群组约束进行训练的 Grouped Head Attention 模型,以及通过投票去除冗余头部来实现更有效和高效的多头自注意力模型。实验结果表明,该方法在三个基准任务上显著提高性能的同时,压缩参数。