SimSMoE: 通过相似度测量解决表示崩溃问题
通过引入竞争机制来解决稀疏专家混合(SMoE)的表示坍塌问题,我们提出了 CompeteSMoE 算法,通过部署一个简单的路由器来预测竞争结果,从而在保持低计算开销的同时实现了强大的性能提升。我们在两个变压器架构和各种任务上进行了广泛的实证评估,表明 CompeteSMoE 相对于最先进的 SMoE 策略而言具有高效性、鲁棒性和可扩展性。
Feb, 2024
我们关注多领域神经机器翻译,旨在开发能够处理训练期间见过的各种领域数据并对未见过的领域具有鲁棒性的高效模型。我们假设稀疏专家混合(SMoE)模型非常适合这个任务,因为它们能够实现高效的模型扩展,有助于适应各种多领域数据,并允许领域间参数的灵活共享,从而可能实现类似领域之间的知识传递,并限制负面传递。我们进行了一系列实验证实 SMoE 在多领域场景中的效用,并发现在实践中,对 Transformer 进行简单的宽度扩展是一种更简洁且出人意料地高效的方法,其达到了与 SMoE 相同的性能水平。我们还寻求多领域系统的更好鲁棒性方法,强调了混合通用领域(如 Paracrawl)的重要性,并引入了一种简单的技术,即领域随机化。
Jul, 2024
多头专家混合模型 (MH-MoE) 使用多头机制将每个令牌拆分为多个子令牌,并并行分配给和处理多样的专家集,然后无缝地重新集成到原始令牌形式,从而增强了训练中的专家激活,深化了上下文理解,减轻过拟合,同时易于实施和与其他 SMoE 模型集成,对英语和多语言模型以及多模态建模任务进行了大量实验,证明了 MH-MoE 的有效性。
Apr, 2024
通过软的 MoE 方法,我们可以在训练和推断成本上实现模型容量的扩展,解决了传统的 MoE 方法中存在的多个问题,在视觉识别任务中显著优于标准的 Transformers 和其他 MoE 变种,并且在模型规模扩展上也有良好的性能。
Aug, 2023
通过逐步删除稀有的 expert,将 Mixture-of-Experts 模型缩减为单一的 dense 模型,以提高计算效率并提供较快的推理速度而保留整体性能。
Jun, 2022
本文提出了 SE-MoE 模型,通过引入 Elastic MoE training、2D prefetch 和 Fusion communication 等技术,实现 Mixture-of-Experts 模型在分布式、异构计算系统上的高效训练和推理,即使在非均衡任务中也可以显著提升吞吐量同时减少内存开销。作者通过实验证明,与 DeepSpeed 相比,SE-MoE 在训练和推断中的吞吐量分别提高了 33%和 13%。
May, 2022
本文关注自然语言处理中的训练不稳定和模型精确性问题,研究提出一种设计指南,通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习,成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。
Feb, 2022
通过引入 ScatterMoE 和 ParallelLinear,实现了在 GPU 上的 Sparse Mixture-of-Experts,并通过与 Megablocks 的对比验证了其高吞吐量和较低的内存占用,同时展示了 ParallelLinear 对 Mixture of Attention 概念的扩展性。
Mar, 2024
本研究探讨了使用稀疏门控专家组技术解决大规模视觉语言模型训练中的挑战,并在等效计算成本下实现最先进性能的潜力,通过稀疏门控专家组对模型解释性的影响及其与 VLM 扩展计算性能之间的折衷,本文为大规模视觉语言模型的扩展提供了宝贵的洞见,并希望能够激发对 MoE 在其他多模态机器学习应用中的研究。
Mar, 2023