Aug, 2022

探索深度学习中的专家混合模型

TL;DR本文研究了 Mixture-of-Experts(MoE)层如何在深度学习中提高神经网络的性能以及为什么混合模型不会崩溃。通过研究困难的分类问题,我们证明了 MoE 模型的有效性,理论上表明路由器可以学习聚类中心特征,帮助将复杂的问题分解为更简单的线性分类子问题,而专家网络可以解决这些子问题,该文是最早正式理解深度学习中 MoE 层机制的结果之一。