学会在专业专家之间进行零 - shot 泛化中的路由

Feb, 2024

学会在专业专家之间进行零 - shot 泛化中的路由

Learning to Route Among Specialized Experts for Zero-Shot Generalization

Mohammed Muqeeth, Haokun Liu, Yufan Liu, Colin Raffel

TL;DR通过 PHATGOOSE 方法，我们提出一种后期自适应分词控制，以改善零样本泛化到未见任务，并发现其优于先前的方法和显式多任务训练。

Abstract

Recently, there has been a widespread proliferation of "expert" language models that are specialized to a specific task or domain through parameter-efficient fine-tuning. How can we recycle large collections of expert language models to improve →

expert language models parameter-efficient fine-tuning zero-shot generalization specialized experts routing strategy

发现论文，激发创造

带有专家路由选择的专家混合模型

我们提出了一种基于专家选择的异构专家混合模型，通过让专家选择前 k 个标记来分配变量数量的专家，从而提高了训练收敛速度，并在 GLUE 基准测试中取得更高的性能。

Feb, 2022

基于专家混合的语言模型中的自适应门控

在该研究中，作者提出了自适应门控混合专家模型，通过采用可变数量的专家处理令牌，实现了稀疏度的保持和训练效率的提高，通过大量实验验证了这种方法在减少训练时间的同时，保持推理质量。

Oct, 2023

改进和解释预训练语言模型的语言专家混合适配器

本研究提出了一种方法，在参数高效微调（PEFT）环境中将语言结构注入到预训练语言模型中。我们使用一种新颖的语言专家混合体架构，将编码不同语言结构的并行适配器模块进行组合，并使用 Gumbel-Softmax 门来确定模型每一层中这些模块的重要性。为了减少参数数量，在修剪专家之前，我们首先对模型进行了固定步骤的训练。我们用三种不同的预训练模型进行实验，结果表明我们的方法在具有相当数量的参数的情况下，能够胜过最先进的 PEFT 方法。此外，我们还提供了额外分析，以检查和提供未来研究的见解。

Oct, 2023

数据高效调优的多头适配器路由

本文提出了 Poly-mu 和 Poly-S 两种新的方法，对比了它们与 Polytropon 方法在多个任务学习中的表现，并发现 Poly-S 方法可以在保持参数少量增加的同时，在三个测试数据集上获得了高达 5.3 个点的平均收益。

Nov, 2022

门控 Dropout: 用于稀疏激活 Transformer 的通信高效正则化

本研究提出了一种名为 Gating Dropout 的方法，它可以减少深度学习模型的跨机器通讯成本，并在多语言机器翻译任务中验证了其有效性。

May, 2022

梯度上升后训练增强了语言模型的泛化能力

本文发现使用梯度上升后训练预训练语言模型可以增强其零样本泛化能力，特别是使用 Gradient Ascent Post-training 方法可以让语言模型在 12 个不同的 NLP 任务上达到与 2-3 倍大的模型相媲美的水平，并且可以提高 LM 的泛化能力而无需进行任何特定任务的微调。

Jun, 2023

LocMoE+：增强型路由器具有令牌特征感知的高效 LLM 预训练

LocMoE + 是低成本的改进版本，通过量化和定义专家和令牌之间的关联性、实施全局级自适应路由策略以重新排列令牌以及重新估计专家容量的下限来解决 Mixture-of-Experts 架构中存在的问题，验证实验结果显示，每个专家处理的令牌数量可以减少超过 60%，在与通信优化相结合的情况下，训练效率平均提高了 5.4% 至 46.6%，在微调后，LocMoE + 在 GDAD、C-Eval 和 TeleQnA 数据集中的性能提高了 9.7% 至 14.1%。

May, 2024

利用层间专家亲和性加速混合专家模型推理

在这篇论文中，我们提出了一种轻量级的优化技术 called ExFlow，用于大大加速 Mixture of Experts 模型的推理过程，并通过利用层间专家亲和力来减少跨 GPU 路由延迟，取得了显著的推理吞吐量提升效果。

Jan, 2024

大型视觉语言模型的少样本自适应研究

通过引入适应真实场景需求的新方法，我们综合评估了一个广泛的数据集和场景，发现其在实践中始终优于现有技术，同时作为更高效的替代方案。

Dec, 2023

Go-tuning：提高较小语言模型的零样本学习能力

本文探讨如何在较小模型的规模下，通过几何引导的自监督学习方法进行任务感知的自监督数据调整，实现与大型语言模型相当的零样本能力。Go-tuning 方法的实验表明 T5-small（80M）能够达到 T5-XL（3B）的竞争零样本结果，并开发了一个多任务模型 mgo-T5（250M），达到九个数据集的 OPT（175B）的平均性能。

Dec, 2022