Sep, 2023

推动专家混合模型的极限:非常参数高效的指令调优 MoE

TL;DR我们的研究展示了混合专家架构的多样性,即使在严格的参数约束下,也能提供稳健的性能,并通过唯一地将 MoE 架构与轻量级专家相结合,提出了极其高效的 MoE 架构,推动了 MoE 的极限。