深度学习中稀疏专家模型综述
本文介绍了一种名为 Sparsely-Gated Mixture-of-Experts layer 的新型条件计算方法,通过使用该方法在语言建模和机器翻译等任务中获得比现有技术更好的结果,而只需在计算效率方面付出少量代价。
Jan, 2017
通过引入均衡分配的 EXPERT 层,使得大规模语言模型中的稀疏层更加简单。通过将词汇分配到专门的 EXPERT 模块中,可以将训练和推理的效率显著提高,同时避免了使用新的超参数或辅助损失的必要。
Mar, 2021
通过逐步删除稀有的 expert,将 Mixture-of-Experts 模型缩减为单一的 dense 模型,以提高计算效率并提供较快的推理速度而保留整体性能。
Jun, 2022
该论文提出稀疏激活多层感知机结合混合专家模型在语言建模任务上显著提高模型容量和表达能力,同时保持运算速度稳定,相较于 Transformer-based MoEs、密集型 Transformer 和全连接 MLP 在训练效率和语言建模复杂度方面获得了 2 倍提升。并在六项下游任务中取得了优于 Transformer-based MoEs 和密集型 Transformer 的效果。
Mar, 2022
通过 Switch Transformer 和降低精度格式,本文展示了如何简化 MoE 路由算法,降低信息交流和计算成本,以及解决训练不稳定问题,并在多语言领域提高了预训练速度并推动了现有语言模型的规模扩大,以 trillion 参数为例,实现了超过 4 倍的速度提升。
Jan, 2021
本文提出了 Soft Merging of Experts with Adaptive Routing(SMEAR)算法,通过使用加权平均的单个合并专家,避免了离散路由,同时实现了标准梯度上升训练。 SEMENT 不仅不会增加计算成本,而且比使用元数据路由或通过梯度估计学习稀疏路由的模型性能更好,同时表明通过 SMEAR 学习到的专家具有显着的特化性。
Jun, 2023