Aug, 2023

预门控 MoE:用于快速可扩展的专家混合推理的算法 - 系统协同设计

TL;DR基于 transformers 的大型语言模型 (LLMs) 近年取得显著进展,其成功驱动因素是其模型规模的扩大。然而,LLMs 的计算和内存需求带来了前所未有的挑战,此研究提出 Pre-gated MoE 系统,通过算法与系统的共同设计,解决传统 MoE 体系的计算和内存问题,提高性能,降低 GPU 内存消耗,并保持与传统模型的质量水平,以高性能的方式使用单个 GPU 部署大规模 LLMs。