Jan, 2024

为渐进式训练语言模型准备课程

TL;DRApollo 方法使用低价值优先采样(LVPS)训练不同深度的模型,并使用权重共享来促进高效的扩展,通过插值方法实现稳定的模型深度扩展,既提高了训练效率,也降低了时间、财务和环境成本。