Mar, 2024

香草变形器是传输能力教师

TL;DR近期,混合专家 (MoE) Transformer 因其在模型容量和计算效率方面的优势而备受关注。然而,研究表明,在许多下游任务中,MoE Transformer 表现不及普通 Transformer,显著降低了 MoE 模型的实用价值。为了解释这个问题,我们提出模型的预训练性能和迁移能力是其下游任务性能的共同决定因素。相比于普通模型,MoE 模型的迁移能力较差,导致其在下游任务中的表现不佳。为了解决这个问题,我们引入了迁移能力蒸馏的概念,即尽管普通模型的性能较弱,但它们是迁移能力的有效教师。在普通模型的指导下,MoE 模型可以实现强大的预训练性能和迁移能力,最终提高其在下游任务中的性能。我们设计了一个特定的蒸馏方法,并在 BERT 架构上进行实验。实验结果显示 MoE 模型的下游性能显著提升,许多进一步的证据也强烈支持迁移能力蒸馏的概念。最后,我们试图从模型特征的角度解释迁移能力蒸馏,并提供一些见解。