Oct, 2023

稀疏反向传播用于 MoE 训练

TL;DR通过 SparseMixer 建立了稀疏计算与反向传播之间的桥梁,提供可靠的梯度估计,并加速了 Switch Transformer 的训练收敛速度。