EMNLPSep, 2021

一个单层随机加权 Transformer 中隐藏了什么?

TL;DR通过对单层随机权重神经网络应用不同的二值掩模,我们发现这些子网络在机器翻译任务上可以实现惊人的性能,同时又不需要修改初始权重;我们还证明了更大更深的 Transformer 和不同初始化方法的有效性,这些发现可以匹敌训练过的 Transformer,在 IWSLT14/WMT14 上分别达到了 29.45/17.29 BLEU(匹配 98%/92%,即 34.14/25.24 BLEU)的性能。