Dec, 2022

稀疏循环利用:从密集检查点训练专家混合模型

TL;DR提出了一种简单的方法,即利用密集型模型的检查点初始化稀疏模型,从而重复利用一次训练的成本,实现计算效率和准确性的平衡。