Jun, 2023

ModuleFormer: 从非系统化数据中学习模块化的大型语言模型

TL;DR本文提出了一种基于 Sparse Mixture of Experts (SMoE) 的新型神经网络架构 ModuleFormer,该架构可以从未加工的数据中诱导出多样性,并通过提高效率、扩展性和专业化能力,对大型预训练语言模型进行改进。