ACLNov, 2019

通过重新排序子层来改善 Transformer 模型

TL;DR研究了不同顺序的多层 Transformer 结构对性能的影响,提出了一种新的顺序 —— 三明治变压器模型,并在多个语言模型基准测试中验证了其性能优势。