Oct, 2020

重新思考预训练语言模型中的嵌入耦合

TL;DR重新评估了先进的预训练语言模型中共享输入和输出嵌入权重的标准做法,表明解耦的嵌入提供了更好的建模灵活性,允许我们在多语言模型的输入嵌入的参数分配方面显着提高参数分配效率。通过在 Transformer 层中重新分配输入嵌入参数,我们在保持微调期间相同的参数数量的情况下,实现了标准自然语言理解任务的极大性能改进。Allocate 额外的容量来提供模型的输出嵌入即使在预训练后被丢弃,也能在微调阶段带来好处。我们的分析表明,更大的输出嵌入可以防止模型的最后几层过度专注于预训练任务,并鼓励 Transformer 表示更加普遍和更易于传递到其他任务和语言。利用这些发现,我们能够训练出在 XTREME 基准上表现出色的模型,而不增加微调阶段的参数数量。