学会在专业专家之间进行零 - shot 泛化中的路由
我们提出了一种基于专家选择的异构专家混合模型,通过让专家选择前 k 个标记来分配变量数量的专家,从而提高了训练收敛速度,并在 GLUE 基准测试中取得更高的性能。
Feb, 2022
在该研究中,作者提出了自适应门控混合专家模型,通过采用可变数量的专家处理令牌,实现了稀疏度的保持和训练效率的提高,通过大量实验验证了这种方法在减少训练时间的同时,保持推理质量。
Oct, 2023
本研究提出了一种方法,在参数高效微调(PEFT)环境中将语言结构注入到预训练语言模型中。我们使用一种新颖的语言专家混合体架构,将编码不同语言结构的并行适配器模块进行组合,并使用 Gumbel-Softmax 门来确定模型每一层中这些模块的重要性。为了减少参数数量,在修剪专家之前,我们首先对模型进行了固定步骤的训练。我们用三种不同的预训练模型进行实验,结果表明我们的方法在具有相当数量的参数的情况下,能够胜过最先进的 PEFT 方法。此外,我们还提供了额外分析,以检查和提供未来研究的见解。
Oct, 2023
本文提出了 Poly-mu 和 Poly-S 两种新的方法,对比了它们与 Polytropon 方法在多个任务学习中的表现,并发现 Poly-S 方法可以在保持参数少量增加的同时,在三个测试数据集上获得了高达 5.3 个点的平均收益。
Nov, 2022
本研究提出了一种名为 Gating Dropout 的方法,它可以减少深度学习模型的跨机器通讯成本,并在多语言机器翻译任务中验证了其有效性。
May, 2022
本文发现使用梯度上升后训练预训练语言模型可以增强其零样本泛化能力,特别是使用 Gradient Ascent Post-training 方法可以让语言模型在 12 个不同的 NLP 任务上达到与 2-3 倍大的模型相媲美的水平,并且可以提高 LM 的泛化能力而无需进行任何特定任务的微调。
Jun, 2023
LocMoE + 是低成本的改进版本,通过量化和定义专家和令牌之间的关联性、实施全局级自适应路由策略以重新排列令牌以及重新估计专家容量的下限来解决 Mixture-of-Experts 架构中存在的问题,验证实验结果显示,每个专家处理的令牌数量可以减少超过 60%,在与通信优化相结合的情况下,训练效率平均提高了 5.4% 至 46.6%,在微调后,LocMoE + 在 GDAD、C-Eval 和 TeleQnA 数据集中的性能提高了 9.7% 至 14.1%。
May, 2024
在这篇论文中,我们提出了一种轻量级的优化技术 called ExFlow,用于大大加速 Mixture of Experts 模型的推理过程,并通过利用层间专家亲和力来减少跨 GPU 路由延迟,取得了显著的推理吞吐量提升效果。
Jan, 2024
本文探讨如何在较小模型的规模下,通过几何引导的自监督学习方法进行任务感知的自监督数据调整,实现与大型语言模型相当的零样本能力。Go-tuning 方法的实验表明 T5-small(80M)能够达到 T5-XL(3B)的竞争零样本结果,并开发了一个多任务模型 mgo-T5(250M),达到九个数据集的 OPT(175B)的平均性能。
Dec, 2022