ICMLMay, 2023

利用分布专家进行终身语言预训练

TL;DR本文提出了 Lifelong-MoE,一种基于扩展的 MoE(Expansive Mixture-of-Experts)架构的 Lifelong Learning 方法,其具有更好的 few-shot 性能,可以对大规模语料进行更好的预训练,适应不同的下游任务。