Jun, 2024

MoE Jetpack:从密集检查点到自适应的专家混合用于视觉任务

TL;DR我们介绍了 MoE Jetpack,这是一种将密集检查点优化为 MoE 模型的有效方法。MoE Jetpack 包括两个关键技术:(1) 检查点回收,将密集检查点重新用于 MoE 模型的初始权重,以加速收敛、提高准确性并减轻预训练的计算负担;(2) 球形自适应 MoE (SpheroMoE) 层,为更好地融合密集检查点而优化 MoE 架构,提高精细调整性能。我们的实验证明 MoE Jetpack 在视觉任务中将密集检查点优化为 MoE 模型时显著提高了收敛速度和准确性。