Apr, 2022

MoEBERT: 通过重要性引导自适应将BERT转变为Experts混合

TL;DRMoEBERT是一种基于Mixture-of-Experts结构的深度神经网络模型,使用层级蒸馏方法训练高效且准确的预训练模型,用于自然语言理解和问答任务。