利用深度多元专家方法检测 TempoWiC 中的词义漂移

Nov, 2022

利用深度多元专家方法检测 TempoWiC 中的词义漂移

Using Deep Mixture-of-Experts to Detect Word Meaning Shift for TempoWiC

Ze Chen, Kangxu Wang, Zijian Cai, Jiewen Zheng, Jiarong He...

TL;DR本文主要描述了 DMA 提交至 TempoWiC 任务的情况，其中取得了 77.05％的宏 F1 得分，获得了该任务的第一名。我们首先探讨了不同预训练语言模型的影响。然后，我们采用数据清洗，数据增强和对抗训练策略来增强模型的泛化能力和鲁棒性。为了进一步提高性能，我们使用混合专家 (MoE) 方法集成 POS 信息和词义表示。实验结果表明，MoE 可以克服特征过度使用的问题，并很好地组合上下文，POS 和词义特征。此外，我们还使用了模型集成方法进行最终预测，这已被许多研究工作证明是有效的。

Abstract

This paper mainly describes the dma submission to the TempoWiC task, which achieves a macro-F1 score of 77.05% and attains the first place in this task. We first explore the impact of different pre-trained language mode

dma pre-trained language models data cleaning adversarial training mixture-of-experts

发现论文，激发创造

TempoWiC：社交媒体中检测意义转变的评估基准

本文介绍了一个新的基准测试 (TempWiC) 用于加速探索社交媒体中词义漂移现象的研究，结果表明其对于当前专门针对社交媒体的语言模型的挑战性较大。

Sep, 2022

通过混合词语专家实现记忆增强语言模型

该论文通过引入大型知识丰富词汇的路由功能和专家，以 Mixture-of-Experts (MoE) 风格模型，积极地解耦学习容量与 FLOPs，提出了一种名为 Mixture of Word Experts (MoWE) 的方法，它可以被视为一种记忆增强模型，其中一组特定于单词的专家起到了稀疏记忆的作用，研究表明，在各种 NLP 任务中，MoWE 的性能明显优于相似 FLOPs 数量的 T5 模型系列，此外，MoWE 在知识密集型任务上胜过常规的 MoE 模型，并且具有与更复杂的记忆增强方法相似的性能，而后者通常需要调用自定义机制来搜索稀疏记忆。

Nov, 2023

Skywork-MoE: 混合专家语言模型培训技术的深入研究

在本研究中，我们介绍了 Skywork-MoE 的训练方法，它是一个具有 1460 亿参数和 16 个专家的高性能混合专家（MoE）大型语言模型（LLM），它是从我们的 Skywork-13B 模型的预先存在的密集检查点初始化的。我们对再利用与从头训练初始化之间的比较效果进行了探索研究，发现这两种方法的选择应该考虑到现有密集检查点的性能和 MoE 训练预算。我们突出了两个创新技术：门控逻辑归一化，可以改善专家多样化，以及自适应辅助损失系数，可以对每层进行调整。我们的实验结果验证了这些方法的有效性。利用这些技术和见解，我们对我们的 SkyPile 语料库的一个压缩子集进行了再利用训练，评估结果证明我们的模型在广泛的基准测试中表现出强大的性能。

Jun, 2024

动态数据混合最大化专家混合模型的指令调优

基于混合专家模型（Mixture-of-Experts），提出了一种动态数据混合的处理方法以优化模型性能，通过动态地调整训练数据的采样权重，减少数据集中的冗余，从而在有限的训练预算下最大化整体性能。

Jun, 2024

HyperMoE: 通过专家之间的迁移改进更好的专家混合

HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架，通过利用未选择的专家生成的特定模块作为补充信息，实现在保持选择稀疏性的同时利用未选择的专家的知识，从而在相同条件下显著优于现有 MoE 方法。

Feb, 2024

多头专家混合

多头专家混合模型 (MH-MoE) 使用多头机制将每个令牌拆分为多个子令牌，并并行分配给和处理多样的专家集，然后无缝地重新集成到原始令牌形式，从而增强了训练中的专家激活，深化了上下文理解，减轻过拟合，同时易于实施和与其他 SMoE 模型集成，对英语和多语言模型以及多模态建模任务进行了大量实验，证明了 MH-MoE 的有效性。

Apr, 2024

基于专家混合的高效大规模语言建模

本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较，并发现除了 fine-tuning 以外，在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同，值得进一步研究。

Dec, 2021

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

稀疏专家混合下的视觉语言模型扩展

本研究探讨了使用稀疏门控专家组技术解决大规模视觉语言模型训练中的挑战，并在等效计算成本下实现最先进性能的潜力，通过稀疏门控专家组对模型解释性的影响及其与 VLM 扩展计算性能之间的折衷，本文为大规模视觉语言模型的扩展提供了宝贵的洞见，并希望能够激发对 MoE 在其他多模态机器学习应用中的研究。

Mar, 2023

基于任务的 MoE 多任务多语言机器翻译

我们设计了一种新方法，将任务信息与 Mixture-of-experts 模型结合，通过共享的动态任务适配器在不同粒度级别上将任务信息融入模型中。实验证明，相比密集和经典的 Mixture-of-experts 模型，在多任务多语言机器翻译上，我们的方法具有优势。通过任务特定的适配器，我们的模型能够高效地泛化到新任务中。

Aug, 2023