EMNLPNov, 2022

谁说大象不能奔跑:将大规模 MoE 模型引入云计算生产环境

TL;DR通过量化权重和优化方法加速计算和减少模型大小,实现了高效的 Inference 模型,使得大规模混合专家 (Mixture of Experts) 变压器模型的部署成为可能。