本文提出了分层专家混合(SMoE)模型,该模型具有分层结构,可以为不同令牌分配动态容量,可用于提高机器翻译中的性能和减少参数不足问题。SMoE 在两个多语言机器翻译基准测试上表现出色,优于多个最先进的 MoE 模型。
May, 2023
本文关注自然语言处理中的训练不稳定和模型精确性问题,研究提出一种设计指南,通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习,成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。
Feb, 2022
通过 Switch Transformer 和降低精度格式,本文展示了如何简化 MoE 路由算法,降低信息交流和计算成本,以及解决训练不稳定问题,并在多语言领域提高了预训练速度并推动了现有语言模型的规模扩大,以 trillion 参数为例,实现了超过 4 倍的速度提升。
Jan, 2021
本文研究了稀疏专家模型中的关键因素,提出了专家原型法以改善模型质量,同时将模型规模扩大到 1 万亿参数,实现了与 TPU 相同的加速。
May, 2021
通过软的 MoE 方法,我们可以在训练和推断成本上实现模型容量的扩展,解决了传统的 MoE 方法中存在的多个问题,在视觉识别任务中显著优于标准的 Transformers 和其他 MoE 变种,并且在模型规模扩展上也有良好的性能。
Aug, 2023
通过引入插拔式专家级稀疏化技术,本文主要针对 MoE LLMs 的部署效率进行了改进,提出了任务无关和任务特定的专家修剪和跳过方法,从而同时减小模型大小、增加推理速度并保持满意的性能。
Feb, 2024
通过逐步删除稀有的 expert,将 Mixture-of-Experts 模型缩减为单一的 dense 模型,以提高计算效率并提供较快的推理速度而保留整体性能。
Jun, 2022
通过采用密集计算进行训练和稀疏计算进行推理的混合密集与稀疏混合模型 (DS-MoE),在保持性能的同时实现了强大的计算和参数效率,比标准稀疏 MoE 更具参数效率,在总参数大小和性能方面与密集模型持平,而且计算成本更低。
Apr, 2024
通过引入动态的专家混合技术(DynMoE),我们的方法在视觉、语言和视觉 - 语言任务中取得了竞争性能,同时通过激活更少的参数来保持效率。
May, 2024
采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统,成功训练出拥有数百万参数的高效的多语言生成模型,同时提升了模型的样本效率和推断时间效率。
Sep, 2021