BriefGPT.xyz
Ask
alpha
关键词
sparsemixer
搜索结果 - 1
稀疏反向传播用于 MoE 训练
通过 SparseMixer 建立了稀疏计算与反向传播之间的桥梁,提供可靠的梯度估计,并加速了 Switch Transformer 的训练收敛速度。
PDF
9 months ago
Prev
Next