Apr, 2024

基于阶段性权重共享的学习基因探索初始化变尺寸模型

TL;DR建立适应不同应用场景中多样资源约束的变量大小模型,权重初始化是训练前的重要步骤。Learngene 框架通过从大型已训练模型中学习一部分紧凑的 Learngene,再将其扩展用于初始化变量大小模型。本文分析了指导已训练 Learngene 层扩展的重要性,提出了一种称为 SWS(逐阶段权重共享)的简单而高效的 Learngene 方法,其中 Learngene 层和其学习过程对于在不同规模上初始化模型提供知识和指导。在 ImageNet-1K 上的大量实验证明,SWS 相对于从头开始训练的许多模型,性能更好且减少了约 6.6 倍的总训练成本。在某些情况下,SWS 经过 1 轮调优后效果更好。当初始化适应不同资源约束的变量大小模型时,与预训练和微调方法相比,SWS 在减少约 20 倍的存储参数以及约 10 倍的预训练成本的同时取得更好的结果。