Aug, 2021

细节见魔鬼:简单技巧提高Transformer系统化泛化能力

TL;DR通过重新设计模型配置,如embedding、early stopping、相对位置嵌入和Universal Transformer变体等基本元素,我们可以显著提高Transformers在系统泛化方面的性能,同时在PLE、COGS、SCAN等数据集上显示性能的提高,从而表明在开发具有系统性泛化能力的神经网络时需要恰当的泛化验证集。