我们提出了一种基于专家选择的异构专家混合模型,通过让专家选择前 k 个标记来分配变量数量的专家,从而提高了训练收敛速度,并在 GLUE 基准测试中取得更高的性能。
Feb, 2022
通过固定的超网络和可训练嵌入层动态生成路由器参数的方式,HyperRouter 在训练和冻结过程中学习优化路由策略,从而在各项任务上展现出明显的性能提升和效率增益。
Dec, 2023
通过引入竞争机制来解决稀疏专家混合(SMoE)的表示坍塌问题,我们提出了 CompeteSMoE 算法,通过部署一个简单的路由器来预测竞争结果,从而在保持低计算开销的同时实现了强大的性能提升。我们在两个变压器架构和各种任务上进行了广泛的实证评估,表明 CompeteSMoE 相对于最先进的 SMoE 策略而言具有高效性、鲁棒性和可扩展性。
Feb, 2024
给定一个固定的计算负载预算,基于相似性的稀疏专家混合模型 (SimSMoE) 解决了专家之间表示崩塌问题,提升了大型语言模型的性能和可伸缩性。
Jun, 2024
该研究文章通过对计算机视觉任务中的 MoEs 中路由器的全面研究,提出了一个统一的 MoE 公式,该公式涵盖了使用两个参数化路由张量的不同 MoEs(包括基于二进制或硬分配的稀疏 MoE 和基于加权组合的软分配的稀疏 MoE),并揭示了路由器在视觉 MoE 模型中发挥至关重要作用的新见解。
Jan, 2024
通过专家融合和神经元排列对信息进行压缩,MC-SMoE 模型实现了高效的神经网络学习,降低了内存和计算资源的需求。
Oct, 2023
本文研究了稀疏专家模型中的关键因素,提出了专家原型法以改善模型质量,同时将模型规模扩大到 1 万亿参数,实现了与 TPU 相同的加速。
May, 2021
我们展示了如何通过将 LLM 扩展为稀疏专家的混合体来提高其推理效率,其中每个专家是原始权重的副本,经过一次性修剪以特定输入值簇的方式修剪。我们称这种方法为 ' 稀疏扩展 '。我们展示了对于像 LLama 270B 这样的模型,随着稀疏专家的数量增加,稀疏扩展在相同推理 FLOP 预算下胜过所有其他一次性稀疏化方法,并且随着稀疏性的增加,这种差距加大,导致推理加速。
May, 2024
本文提出了 Soft Merging of Experts with Adaptive Routing(SMEAR)算法,通过使用加权平均的单个合并专家,避免了离散路由,同时实现了标准梯度上升训练。 SEMENT 不仅不会增加计算成本,而且比使用元数据路由或通过梯度估计学习稀疏路由的模型性能更好,同时表明通过 SMEAR 学习到的专家具有显着的特化性。
Jun, 2023
稀疏专家模型是一种在近三十年中不断涌现的深度学习架构,通过在每个样本中使用参数子集来实现稀疏度,使参数计数与每个样本的计算分离,产生非常大但高效的模型,已在自然语言处理、计算机视觉和语音识别等领域中显著提高性能。
Sep, 2022