May, 2023

可回收的连续预训练调优

TL;DR本文探讨了在模型不断学习的情况下,对于更新的预训练模型如何对过期的调整权重进行回收利用,提出了初始化和蒸馏两种方法用于解决该问题,提高了模型的收敛速度和性能。