Jan, 2021
Switch Transformers: 使用简单高效的稀疏性扩展至万亿级参数模型
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
William Fedus, Barret Zoph, Noam Shazeer
TL;DR通过 Switch Transformer 和降低精度格式,本文展示了如何简化 MoE 路由算法,降低信息交流和计算成本,以及解决训练不稳定问题,并在多语言领域提高了预训练速度并推动了现有语言模型的规模扩大,以 trillion 参数为例,实现了超过 4 倍的速度提升。