Oct, 2023

PELA:学习具有低秩近似的参数高效模型

TL;DR通过引入中间的预训练阶段,我们提出了一种新方法来增加预训练模型的参数效率,该方法通过低秩逼近来压缩原始的大模型,并设计了特征蒸馏模块和权重扰动正则化模块,以增强低秩模型。这种方法在保持基本架构的最小修改的同时,在所需参数和计算时间方面同时实现了效率,通常将原始参数大小减少1/3至2/3,并降低约0.6个性能点。