Nov, 2022

MegaBlocks:混合专家梯度稀疏训练的高效实现

TL;DRMegaBlocks 是一种用于 GPU 上高效混合专家模型 (MoE) 的系统,通过块稀疏操作优化 MoE 计算,在不丢弃信息的前提下提高硬件效率,能够实现 40% 的训练加速。