Mar, 2021

BASE Layers:简化大规模稀疏模型的训练

TL;DR通过引入均衡分配的 EXPERT 层,使得大规模语言模型中的稀疏层更加简单。通过将词汇分配到专门的 EXPERT 模块中,可以将训练和推理的效率显著提高,同时避免了使用新的超参数或辅助损失的必要。