Feb, 2022

ST-MoE: 设计稳定且可转移的稀疏专家模型

TL;DR本文关注自然语言处理中的训练不稳定和模型精确性问题,研究提出一种设计指南,通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习,成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。