Dec, 2022
稀疏循环利用:从密集检查点训练专家混合模型
Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints
Aran Komatsuzaki, Joan Puigcerver, James Lee-Thorp, Carlos Riquelme Ruiz, Basil Mustafa...
TL;DR提出了一种简单的方法,即利用密集型模型的检查点初始化稀疏模型,从而重复利用一次训练的成本,实现计算效率和准确性的平衡。