ACLAug, 2021

可微分的 Transformer 头部子集剪枝

TL;DR本文提出了一种可微的子集剪枝技术,通过学习每个头的重要性变量并对未剪枝的头数施加用户指定的硬约束,实现对多头注意力机制的剪枝;实验证明该技术可以实现精确控制稀疏度水平,并在自然语言推理和机器翻译方面的表现不亚于以往技术。