MoLE: 用于多语言自动语音识别的语言专家混合模型
Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家,在参数和行为特征方面带来了一些有趣的观察,为 MoE 框架和其他模块化架构的未来研究提供了启示。
Jun, 2024
提出了一种流式的、真正的多语言 Conformer 模型,其中融合了 MoE 层以提高推理效率,经在 12 种语言上评估,相对于基线获得 11.9% 的相对 WER 改进;在不使用语言信息的前提下,与使用 Ground Truth 信息的适配器模型相比,我们的 MoE 模型实现了类似的 WER 和相似数量的参数激活,并通过多语言浅层融合实现了约 3% 的相对 WER 改进。
May, 2023
提出了一种基于 Mixture of Experts (MoE) 的强大的命名实体识别(NER)模型 BOND-MoE,通过使用多个模型在 EM 框架下进行集成,可以显著减轻噪声监督带来的问题,并引入公平分配模块来平衡文档 - 模型分配过程,实验证明该方法在真实数据集上取得了与其他远程监督 NER 方法相比的最先进性能。
Apr, 2024
AdaMoLE 是一种通过自适应混合低秩适应(LoRA)专家的方法,用于对大型语言模型(LLMs)进行精细调节。它通过使用专用阈值网络来动态调整激活阈值,从而对不同任务的变化复杂性进行自适应响应。通过将单个 LoRA 替换为多个 LoRA 专家,并将门控函数与阈值机制集成,AdaMoLE 可以有效地选择和激活最合适的专家。通过在多种常识推理和自然语言处理任务上进行广泛评估,我们发现 AdaMoLE 的性能优于基准性能。这种改进突出了 AdaMoLE 自适应选择 LoRA 专家的优势,提高了模型的有效性而不增加专家数量。实验证实了 AdaMoLE 作为增强 LLMs 的强大方法,并且对于自适应专家选择机制的未来研究提出了有价值的方向,潜在地扩大了优化模型性能在不同语言处理任务中的范围。
May, 2024
通过将大型语言模型(LLMs)转换为专家混合(MoE)架构,分析其在处理各种语言时的专家激活模式,探索并发现非语言特定神经元和语言特定激活神经元的存在,并展示了仅利用高频激活神经元可以在保持相当性能的同时加速推理的可能性,这些发现为 LLMs 的多语言处理机制提供了启示,对指导 LLMs 的多语言训练和模型修剪具有重要意义。
Feb, 2024
多头专家混合模型 (MH-MoE) 使用多头机制将每个令牌拆分为多个子令牌,并并行分配给和处理多样的专家集,然后无缝地重新集成到原始令牌形式,从而增强了训练中的专家激活,深化了上下文理解,减轻过拟合,同时易于实施和与其他 SMoE 模型集成,对英语和多语言模型以及多模态建模任务进行了大量实验,证明了 MH-MoE 的有效性。
Apr, 2024
为了更好地帮助开源社区了解基于混合专家的大型语言模型,我们训练并发布了一系列完全开源和可复现的仅解码器类型的混合专家语言模型,参数范围从 650M 到 34B,训练语料超过 1T 个标记。我们的调查确认了基于混合专家的大型语言模型可以提供更有利的成本效益权衡,突出了未来大型语言模型发展的潜在有效性。该研究的另一个重要贡献是对我们 OpenMoE 模型中的路由机制进行深入分析,得出了三个重要发现:上下文无关专业化、早期路由学习和朝末尾丢弃。我们发现,混合专家模型中的路由决策主要基于标记 ID,与上下文相关性较小。标记对专家的分配在预训练阶段早期确定,并且在很大程度上保持不变。这种不完美的路由可能导致性能下降,尤其是在多轮对话等顺序任务中,较后出现的标记更有可能被丢弃。最后,我们根据上述观察和分析重新思考了设计。为了促进未来的混合专家语言模型发展,我们提出了减轻发现的问题并进一步改进现成混合专家语言模型设计的潜在策略。
Jan, 2024
MING-MOE 是一种基于混合专家(MOE)的医学大型语言模型,通过 Mixture of Low-Rank Adaptation(MoLoRA)技术,在不需要特定任务注释的情况下处理复杂多样的医学任务,从而在超过 20 个医学任务上取得了最先进的性能,提高了推断效率。
Apr, 2024
提出了一种全可微分的模型,称为 Mixture of Tokens,它在避免了 Mixture of Experts 模型的困难的同时保留了其优点,通过在专家之前混合来自不同示例的标记,使模型能够从所有标记 - 专家组合中学习。此方法与大型语言模型的训练和推理完全兼容。
Oct, 2023