May, 2023

Flan-MoE:基于稀疏专家混合的指令微调语言模型的扩展

TL;DR通过指令微调稀疏专家混合模型(Flan-MoE),我们证明了在任务特定数据集上进行MoE模型的简单微调通常比相同复杂度的密集模型效果更差。本文的Flan-MoE在指令微调及指令微调后的任务特定微调实验中均优于密集模型,并在仅使用三分之一的FLOPS的情况下,超越了Flan-PaLM-62B的性能,可望引领大规模高效的语言模型设计。