Oct, 2020

Transformer 解码器的子层功能

TL;DR本研究通过开发一种通用的探测任务来分析 Transformer-based 解码器中的每个模块如何传递信息,并针对三个主要翻译数据集进行了广泛实验。通过分析发现,Transformer 解码器中每个模块对应的不同的源信息和目标语前缀的使用方式。同时,通过实验得出,每层解码器中的残差前馈模块可以被取消,而不影响性能,从而极大地降低了计算量和参数数量,提高了培训和推理速度