大型语言模型预训练中稀疏前馈网络的统一视角
如何在不牺牲性能的情况下减少神经网络的计算和内存需求?本研究提出了 sparse Mixtures of Experts 方法,通过一种综合框架将各种方法整合在一起以近似两层神经网络,并提出方法来改进这种方法,这样可以使大型语言模型在资源利用方面更加高效。
Oct, 2023
本研究探讨了预训练模型 Transformers 中前馈网络(FFN)的计算模式,提出了一种将模型 MoEfication 为多个功能分区的方法,并建立了专家路由器以决定每个输入使用哪个专家。实验结果表明,这种方法可以在保持原始性能的同时使用 10%至 30%的 FFN 参数,同时提高了推断 FLOPS 的效率和提供了一个细粒度的视角来研究 FFN 的内部机制。
Oct, 2021
优化预训练语言模型(PLM)在商用硬件上的部署,通过模型压缩技术提高效率,将 Feed-forward 网络划分为两部分以提高已有压缩方法的效果,并取得了可观的模型尺寸减小和推理速度提升的效果。
Jan, 2024
GRIFFIN 是一种在不同非 ReLU 激活函数的大规模语言模型 (LLMs) 中选择唯一的前馈 (FE) 专家以实现高效生成的新型无需训练的 MoE 方法。
Apr, 2024
通过结构化的前馈网络,使用线性层近似来减少大型语言模型的参数数量和计算成本,同时提出一种自我引导训练的方法来改善这种近似所表现出的训练动力学,从而在训练和推断中实现高效和有效的结果。
Jun, 2024
通过从现有的大型语言模型构建混合专家(MoE)模型,我们提出了一种从头开始训练在大规模环境下仍面临数据需求和不稳定性问题的 MoE 的方法。我们综合探索了不同的专家构建方法和各种数据采样策略,最终生成的 LLaMA-MoE 模型能够保持语言能力并将输入标记路由到具体的专家。经验证明,在训练 200B 标记后,LLaMA-MoE-3.5B 模型在含有相似激活参数的密集模型上表现出显著优势。
Jun, 2024
该论文通过引入大型知识丰富词汇的路由功能和专家,以 Mixture-of-Experts (MoE) 风格模型,积极地解耦学习容量与 FLOPs,提出了一种名为 Mixture of Word Experts (MoWE) 的方法,它可以被视为一种记忆增强模型,其中一组特定于单词的专家起到了稀疏记忆的作用,研究表明,在各种 NLP 任务中,MoWE 的性能明显优于相似 FLOPs 数量的 T5 模型系列,此外,MoWE 在知识密集型任务上胜过常规的 MoE 模型,并且具有与更复杂的记忆增强方法相似的性能,而后者通常需要调用自定义机制来搜索稀疏记忆。
Nov, 2023
基于 transformers 的大型语言模型 (LLMs) 近年取得显著进展,其成功驱动因素是其模型规模的扩大。然而,LLMs 的计算和内存需求带来了前所未有的挑战,此研究提出 Pre-gated MoE 系统,通过算法与系统的共同设计,解决传统 MoE 体系的计算和内存问题,提高性能,降低 GPU 内存消耗,并保持与传统模型的质量水平,以高性能的方式使用单个 GPU 部署大规模 LLMs。
Aug, 2023
Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家,在参数和行为特征方面带来了一些有趣的观察,为 MoE 框架和其他模块化架构的未来研究提供了启示。
Jun, 2024
我们提出了将负载均衡和主叶技术融入快速前馈网络(FFFs)体系结构,以改善性能并简化训练过程。通过在文献中实现实验并展示使用这些技术增强的 FFF 模型的结果,我们发现所提出的架构和训练方法在训练和测试准确性方面相较于原始 FFF 架构分别提高了 16.3% 和 3% 的分类准确性。此外,与先前研究中报道的结果相比,我们观察到结果的变化较小。这些发现表明在 FFF 中整合受 Mixture of Experts 技术启发的技术可以开发出更准确和高效的模型。
May, 2024