门控 Dropout: 用于稀疏激活 Transformer 的通信高效正则化
在该研究中,作者提出了自适应门控混合专家模型,通过采用可变数量的专家处理令牌,实现了稀疏度的保持和训练效率的提高,通过大量实验验证了这种方法在减少训练时间的同时,保持推理质量。
Oct, 2023
通过引入 dropout 和条件化的 MoE 路由和课程学习技术,本研究针对低资源任务下 MoE 模型的严重过拟合问题,提出有效的正则化策略,成功提高了 MoE 模型在低资源任务中的性能,并在大规模多语种机器翻译基准测试中取得了巨大的改进。
Dec, 2022
本文介绍了一种名为 Sparsely-Gated Mixture-of-Experts layer 的新型条件计算方法,通过使用该方法在语言建模和机器翻译等任务中获得比现有技术更好的结果,而只需在计算效率方面付出少量代价。
Jan, 2017
本文提出一种新的 MoE 的门控网络结构,类似于注意力机制,可以在任务分解方面提高性能并导致更低的熵,同时介绍了一种新的数据驱动正则化方法,可以提高专家的专业化。
Feb, 2023
我们提出了一种基于专家选择的异构专家混合模型,通过让专家选择前 k 个标记来分配变量数量的专家,从而提高了训练收敛速度,并在 GLUE 基准测试中取得更高的性能。
Feb, 2022
提出了一种全可微分的模型,称为 Mixture of Tokens,它在避免了 Mixture of Experts 模型的困难的同时保留了其优点,通过在专家之前混合来自不同示例的标记,使模型能够从所有标记 - 专家组合中学习。此方法与大型语言模型的训练和推理完全兼容。
Oct, 2023
本研究提出了一种 Hierarchical mixture of experts 的 dropout 变种,用于防止多层神经网络中的过拟合,可以在许多层级的树上预防 overfitting,从而提高泛化性能和提供更平滑的拟合。
Dec, 2018
本文提出了一种基于单门 MoE 的简单且高效的异步训练方法,并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡,与其他复杂的 MoE 相比表现优异,为单门 MoE 的应用提供了新的思路。
Apr, 2023
本文提出了分层专家混合(SMoE)模型,该模型具有分层结构,可以为不同令牌分配动态容量,可用于提高机器翻译中的性能和减少参数不足问题。SMoE 在两个多语言机器翻译基准测试上表现出色,优于多个最先进的 MoE 模型。
May, 2023
基于 transformers 的大型语言模型 (LLMs) 近年取得显著进展,其成功驱动因素是其模型规模的扩大。然而,LLMs 的计算和内存需求带来了前所未有的挑战,此研究提出 Pre-gated MoE 系统,通过算法与系统的共同设计,解决传统 MoE 体系的计算和内存问题,提高性能,降低 GPU 内存消耗,并保持与传统模型的质量水平,以高性能的方式使用单个 GPU 部署大规模 LLMs。
Aug, 2023