EMNLPOct, 2018

带有不一致规则化的多头注意力

TL;DR本文提出基于不同类型的不一致性正则化来鼓励多头注意力模型中的多样性,实验结果表明这种方法有效且具有普适性,适用于 WMT14 英德和 WMT17 中英翻译任务。