ACLApr, 2020

高速公路变压器:自门控增强自注意网络

TL;DR通过将 LSTM 并入已有的 multi-headed dot product attention 机制中作为 gated component self-dependency units,使信息流动更加顺畅,从而提高了在序列学习任务中的性能。同时还成功阐述了其在 context-based Transformer 模型中的应用,即 SDU gates 可以加速优化过程。