Nov, 2020

重新思考Transformer组件的价值

TL;DR本文通过评估不同层(组件)中每个组件对训练后的Transformer模型的影响,构建了当前尚未被充分研究的各个组件如何促进模型性能的环节。实验结果表明:在各种语言对,训练策略和模型容量上,某些组件比其他组件更为重要;作者据此提出了区分不重要组件的新型训练策略,逐步改进了翻译性能。