COLINGSep, 2020

缓解神经机器翻译中注意力头不平等

TL;DR本篇论文研究表明 Transformer 中的注意力头并不相等,为解决这个问题,提出了 HeadMask 方法,在多个语言对中实现了翻译改进。