ACLMay, 2020

混合 $h-1$ 个头比 $h$ 个头更好

TL;DR通过重新分配注意力头部,我们提出了一种混合专家模型(MAE),其利用分块协调下降算法对其进行训练,并在机器翻译任务和语言建模任务中表现出优异的性能。