May, 2024

Lory: 全可微的自回归语言模型预训练中的专家混合

TL;DRLory 是一种全可微的混合专家模型架构,通过引入因果段路由策略和基于相似性的数据分批方法,实现了高效的专家融合运算和专家特化,该方法在自回归语言模型的预训练中取得了显著性能提升,在困惑度和多种下游任务上分别达到了 + 13.9% 和 + 1.5%-11.1% 的结果,同时证明了 Lory 的专家能够捕捉领域级别的特化。