EMNLPAug, 2019

通过深度缩放初始化和合并注意力改进深度 Transformer

TL;DR本文研究了 NLP 中 Transformers 的深度网络结构存在的一些问题,提出了使用 DS-Init 和 MAtt 方法来解决梯度消失和计算效率问题,实验证明这些方法可以有效提升机器翻译的 BLEU 值。