Jun, 2024

混合专家调查

TL;DR大型语言模型(LLMs)通过其巨大的模型规模、丰富多样的数据集和庞大的计算能力的训练,获得了在自然语言处理、计算机视觉等领域的前所未有的进展。混合专家(MoE)作为一种有效的方法,以最小计算开销显著扩展模型容量,受到学术界和行业的广泛关注。本调查旨在弥补对MoE文献缺乏系统全面综述的空白,为研究人员深入探讨MoE的复杂性提供重要资源。我们首先简要介绍MoE层的结构,然后提出了新的MoE分类法。接下来,我们概述了各种MoE模型的核心设计,包括算法和系统方面,以及可用的开源实现、超参数配置和实证评估的集合。此外,我们还勾画了MoE在实践中的多方面应用,并概述了一些未来研究的潜在方向。为促进MoE研究中最新进展的持续更新和共享,我们创建了一个资源存储库,可访问此https网址。