分布式学习专家混合模型

Dec, 2023

Distributed Learning of Mixtures of Experts

Faïcel Chamroukhi, Nhat Thien Pham

TL;DR提出了一种分布式学习方法，用于构建一个由本地估计器并行拟合数据子集所组成的大的混合专家模型，通过最小化期望的运输散度来聚合这些本地估计器，并通过提出的主导 - 最小化算法来构造一种计算规模高效的降维估计器。对实验中的统计和数值属性进行了研究，证明了所提供的降维估计器的性能优于从完整数据集中以集中方式构造的全局估计器，有些情况下计算时间比全局估计器快十倍以上，我们的源代码公开在 Github 上。

Abstract

In modern machine learning problems we deal with datasets that are either distributed by nature or potentially large for which distributing the computations is usually a standard way to proceed, since centralized algorithms are in general ineffective. We propose a distributed learning

distributed learning mixtures of experts aggregation strategy reduction estimator majorization-minimization algorithm

发现论文，激发创造

LocMoE：一种用于大型语言模型训练的低开销 MoE

通过转换部分节点间通信为节点内通信的路由策略，我们提出了一种新颖的负载均衡和局部性相结合的路由策略，并在 PanGu-Sigma 模型上进行了改进，实验证明该路由策略减少了每轮训练时间约 12.68% 至 22.24%，而不影响模型的准确性。

Jan, 2024

重新审视单门限专家混合模型

本文提出了一种基于单门 MoE 的简单且高效的异步训练方法，并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡，与其他复杂的 MoE 相比表现优异，为单门 MoE 的应用提供了新的思路。

Apr, 2023

稠密专家混合模型的泛化误差分析：初步研究

在这篇论文中，我们探索了稀疏专家混合模型（Sparse MoE）在各种关键因素下的泛化误差，并从经典学习理论的角度提供了如何使用稀疏性来提高混合模型泛化性能的见解。

Mar, 2024

MoDE: 一种基于专家互相融合的混合模型

我们提出了一种叫作 Mixture-of-Distilled-Expert（MoDE）的方法，通过在专家之间应用适度的相互蒸馏，使每个专家能够掌握其他专家学习到的更多特征，从而对其原始分配的子任务有更准确的认识。我们进行了大量的实验，包括表格、自然语言处理和计算机视觉数据集，证明了 MoDE 的有效性、普适性和鲁棒性。此外，我们通过创新地构建 “专家探针” 进行了平行研究，实验性地证明了为什么 MoDE 起作用：适度的知识蒸馏可以提高每个单独专家在其所分配任务上的测试性能，从而提升 MoE 的整体性能。

Jan, 2024

专家稀疏混合模型的任务特定剪枝

通过逐步删除稀有的 expert，将 Mixture-of-Experts 模型缩减为单一的 dense 模型，以提高计算效率并提供较快的推理速度而保留整体性能。

Jun, 2022

最小二乘估计在 Softmax 门限混合专家中的应用

在本研究中，我们探究了在数据按照回归模型进行采样的确定性混合专家模型下，最小二乘估计器（LSE）的性能，并建立了称为强可辨识性的条件，以表征不同类型的专家函数的收敛行为。我们证明了广泛使用的具有激活函数 sigmoid 和 tanh 的前馈网络专家的估计速度明显快于多项式专家，后者表现出令人惊讶的缓慢估计速度。我们的研究结果对专家选择具有重要的实际意义。

Feb, 2024

高效深度强化学习的概率混合专家模型

本研究提出了一种基于高斯混合模型的概率混合专家策略，以及一种新的用于解决策略不可区分性问题的梯度估计器，成功应用于通用离线策略和在线策略深度强化学习算法，实验结果表明该方法在包括探索在内的多个方面优于单模态策略、其他混合专家策略和选项框架方法，学习出的元素能够区分，具有更好的学习效率和性能。

Apr, 2021

强化学习设置中的专家混合模型

以增加参数计数、减少休眠神经元为特点的协同专家模型在深度强化学习中显著提升性能，通过多任务训练模拟非稳态性的扩大，进一步增强学习能力，并探索最佳使用戏剧评论理论网络中的协同专家组件的方法。

Jun, 2024

MoEC: 专家混合聚类

本研究提出了 Mixture of Expert Clusters 模型，通过在路由阶段引入基于方差的约束来促进专家层学习更多不同和适当的知识，并提出了一种专家集群结构的集群级别专家丢失策略。实验证明，该模型可以提高机器翻译和自然语言理解任务的性能，并在有限数据条件下扩展专家的性能上限，对缓解过度拟合和稀疏数据分配问题起到积极作用。

Jul, 2022

通过正交优化器来丰富语言模型的专家混合表示

通过提出正交专家优化器（OMoE）和交替训练策略，我们解决了混合专家（MoE）模型中的同质表示问题，显著提高了在 GLUE 基准、SuperGLUE 基准、问答任务和命名实体识别任务上微调 MoE 模型的性能。

Oct, 2023