滤波而非混合：基于随机滤波的大语言模型混合的在线门控

Jun, 2024

滤波而非混合：基于随机滤波的大语言模型混合的在线门控

Filtered not Mixed: Stochastic Filtering-Based Online Gating for Mixture of Large Language Models

Raeid Saqur, Anastasis Kratsios, Florian Krach, Yannick Limmer, Jacob-Junqi Tian...

TL;DR提出了 MoE-F 机制，用于在在线时间序列预测任务中结合 N 个预训练的大型语言模型 (LLMs)，通过自适应性地预测在每个时间步骤中 LLMs 预测的最佳加权。通过利用每个专家的运行表现中的条件信息，我们的机制可以预测最佳的 LLMs 组合以预测时间序列的下一个步骤。通过将专家选择问题构建为有限状态空间、连续时间的隐马尔可夫模型 (HMM)，我们可以利用 Wohman-Shiryaev 滤波器。我们的方法首先构建了 N 个并行滤波器，分别对应于 N 个单独的 LLMs。每个滤波器根据其拥有的信息提出其最佳的 LLMs 组合。随后，将 N 个滤波器的输出聚合以优化聚合 LLMs 的损失下界，可以通过闭合形式进行优化，从而生成我们的集成预测器。本文贡献包括：(I) MoE-F 算法 - 可作为即插即用的滤波器框架使用；(II) 提出的基于滤波的门控算法的理论最优性保证；(III) 使用最先进的基础和 MoE LLMs 在真实世界的金融市场动态预测任务上进行的实证评估和分析结果，其中 MoE-F 相对于表现最好的单个 LLM 专家获得了显著的 17% 的绝对值和 48.5% 的相对 F1 度量改进。

Abstract

We propose moe-f -- a formalised mechanism for combining $N$ pre-trained expert large language models (LLMs) in online time-series prediction

moe-f large language models time-series prediction ensemble predictor financial market movement

发现论文，激发创造

基于专家混合的语言模型中的自适应门控

在该研究中，作者提出了自适应门控混合专家模型，通过采用可变数量的专家处理令牌，实现了稀疏度的保持和训练效率的提高，通过大量实验验证了这种方法在减少训练时间的同时，保持推理质量。

Oct, 2023

最小二乘估计在 Softmax 门限混合专家中的应用

在本研究中，我们探究了在数据按照回归模型进行采样的确定性混合专家模型下，最小二乘估计器（LSE）的性能，并建立了称为强可辨识性的条件，以表征不同类型的专家函数的收敛行为。我们证明了广泛使用的具有激活函数 sigmoid 和 tanh 的前馈网络专家的估计速度明显快于多项式专家，后者表现出令人惊讶的缓慢估计速度。我们的研究结果对专家选择具有重要的实际意义。

Feb, 2024

预门控 MoE：用于快速可扩展的专家混合推理的算法 - 系统协同设计

基于 transformers 的大型语言模型 (LLMs) 近年取得显著进展，其成功驱动因素是其模型规模的扩大。然而，LLMs 的计算和内存需求带来了前所未有的挑战，此研究提出 Pre-gated MoE 系统，通过算法与系统的共同设计，解决传统 MoE 体系的计算和内存问题，提高性能，降低 GPU 内存消耗，并保持与传统模型的质量水平，以高性能的方式使用单个 GPU 部署大规模 LLMs。

Aug, 2023

重新审视单门限专家混合模型

本文提出了一种基于单门 MoE 的简单且高效的异步训练方法，并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡，与其他复杂的 MoE 相比表现优异，为单门 MoE 的应用提供了新的思路。

Apr, 2023

混合专家中改进专家专业化能力

本文提出一种新的 MoE 的门控网络结构，类似于注意力机制，可以在任务分解方面提高性能并导致更低的熵，同时介绍了一种新的数据驱动正则化方法，可以提高专家的专业化。

Feb, 2023

LLaMA-MoE：从 LLaMA 进行连续预训练构建混合专家系统

通过从现有的大型语言模型构建混合专家（MoE）模型，我们提出了一种从头开始训练在大规模环境下仍面临数据需求和不稳定性问题的 MoE 的方法。我们综合探索了不同的专家构建方法和各种数据采样策略，最终生成的 LLaMA-MoE 模型能够保持语言能力并将输入标记路由到具体的专家。经验证明，在训练 200B 标记后，LLaMA-MoE-3.5B 模型在含有相似激活参数的密集模型上表现出显著优势。

Jun, 2024

FuseMoE: 灵活模态融合的专家混合变压器

通过混合专家框架和创新的门控函数，本研究介绍了 FuseMoE 模型，该模型可以有效地处理多模态数据、缺失模态以及时间上的不规则和稀疏采样数据，从而改善模型预测性能。通过临床风险预测任务的验证，证实了 FuseMoE 在实际应用中的实用性。

Feb, 2024

一般性 Softmax 门控多项式逻辑混合专家的理论

通过建立 softmax gating multinomial logistic MoE 模型的密度估计和参数估计的收敛性速率，我们揭示了 softmax gating 和 expert 函数之间的相互作用通过偏微分方程导致了多项式速率变慢，提出了一种新型的修改 softmax gating 函数的方法，消除了先前的相互作用，显著提高了参数估计速率。

Oct, 2023

基于提示 - 提示的专家混合模型进行高效 LLM 生成

GRIFFIN 是一种在不同非 ReLU 激活函数的大规模语言模型 (LLMs) 中选择唯一的前馈 (FE) 专家以实现高效生成的新型无需训练的 MoE 方法。

Apr, 2024

OpenMoE: 开放混合专家语言模型的早期探索

为了更好地帮助开源社区了解基于混合专家的大型语言模型，我们训练并发布了一系列完全开源和可复现的仅解码器类型的混合专家语言模型，参数范围从 650M 到 34B，训练语料超过 1T 个标记。我们的调查确认了基于混合专家的大型语言模型可以提供更有利的成本效益权衡，突出了未来大型语言模型发展的潜在有效性。该研究的另一个重要贡献是对我们 OpenMoE 模型中的路由机制进行深入分析，得出了三个重要发现：上下文无关专业化、早期路由学习和朝末尾丢弃。我们发现，混合专家模型中的路由决策主要基于标记 ID，与上下文相关性较小。标记对专家的分配在预训练阶段早期确定，并且在很大程度上保持不变。这种不完美的路由可能导致性能下降，尤其是在多轮对话等顺序任务中，较后出现的标记更有可能被丢弃。最后，我们根据上述观察和分析重新思考了设计。为了促进未来的混合专家语言模型发展，我们提出了减轻发现的问题并进一步改进现成混合专家语言模型设计的潜在策略。

Jan, 2024