Oct, 2020
Transformer 解码器的子层功能
On the Sub-Layer Functionalities of Transformer Decoder
Yilin Yang, Longyue Wang, Shuming Shi, Prasad Tadepalli, Stefan Lee...
TL;DR本研究通过开发一种通用的探测任务来分析 Transformer-based 解码器中的每个模块如何传递信息,并针对三个主要翻译数据集进行了广泛实验。通过分析发现,Transformer 解码器中每个模块对应的不同的源信息和目标语前缀的使用方式。同时,通过实验得出,每层解码器中的残差前馈模块可以被取消,而不影响性能,从而极大地降低了计算量和参数数量,提高了培训和推理速度