Feb, 2020

多头注意力模型中的低秩瓶颈

TL;DR本文提出了一种多头注意力机制的改进方法,将注意头的大小设置为输入序列长度,从而使注意机制的表达能力更强,能够在较小的嵌入维度下训练模型,并提高模型的性能。