May, 2022

稀疏混合器:结合 MoE 和混合来构建更高效的 BERT

TL;DR本文介绍了 Sparse Mixer 模型,它结合了稀疏门控混合专家模型和线性混合变换,并在 GLUE 和 SuperGLUE 数据集上略优于 BERT 模型,同时训练时间快 65%,推理速度快 61%。该模型可以克服 MoE 模型的许多延迟和稳定性问题,为稀疏 student 模型提供了前景。