EMNLPFeb, 2023

参数高效微调中 Transformer 模块的迁移性实证研究

TL;DR本文旨在通过 fine-tuning 各种 transform 的模块,找寻最优子网络并探究不同 transformer 模块在将知识从预训练模型传输到下游任务方面的能力,结果显示其中的 LayerNorms 具有最佳的限制可训练参数数量和知识传输能力,并且这种效果可能是由于相对于其他模块,在预训练 BERT 中,它们具有更高的权重大小。