ModuleFormer: 从非系统化数据中学习模块化的大型语言模型

Jun, 2023

ModuleFormer: 从非系统化数据中学习模块化的大型语言模型

ModuleFormer: Learning Modular Large Language Models From Uncurated Data

Yikang Shen, Zheyu Zhang, Tianyou Cao, Shawn Tan, Zhenfang Chen...

TL;DR本文提出了一种基于 Sparse Mixture of Experts (SMoE) 的新型神经网络架构 ModuleFormer，该架构可以从未加工的数据中诱导出多样性，并通过提高效率、扩展性和专业化能力，对大型预训练语言模型进行改进。

Abstract

large language models (LLMs) have achieved remarkable results. But existing models are expensive to train and deploy, and it is also difficult to expand their knowledge beyond pre-training data without forgetting previous knowledge. This paper proposes a new neural network architecture

large language models moduleformer sparse mixture of experts modularity efficiency

发现论文，激发创造

使用轻量级的语言特定模块压缩多语言知识

本文提出了 Language-Specific Matrix Synthesis (LMS) 方法以解决多语言机器翻译领域中语言特定模块的可扩展性问题，并通过 Fuse Distillation 技术将模块知识压缩至单个共享模块提高推理效率和模型序列化能力。该方法在与同样额外参数的 LS 方法和 MoE 方法相比中获得更好的翻译性能，而且有着更少的参数。

May, 2023

Uni-MoE：使用专家混合方法扩展统一多模态 LLMs

开发一种用于多模态大型语言模型的混合专家 (Uni-MoE) 架构，具有一致的多模态表示，通过稀疏的模态级数据并行和专家级模型并行实现高效的训练和推理，进一步减少性能偏差，并提高多专家的协作和泛化能力。

May, 2024

LLaMA-MoE：从 LLaMA 进行连续预训练构建混合专家系统

通过从现有的大型语言模型构建混合专家（MoE）模型，我们提出了一种从头开始训练在大规模环境下仍面临数据需求和不稳定性问题的 MoE 的方法。我们综合探索了不同的专家构建方法和各种数据采样策略，最终生成的 LLaMA-MoE 模型能够保持语言能力并将输入标记路由到具体的专家。经验证明，在训练 200B 标记后，LLaMA-MoE-3.5B 模型在含有相似激活参数的密集模型上表现出显著优势。

Jun, 2024

大型语言模型中混合专家的更深入研究

Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家，在参数和行为特征方面带来了一些有趣的观察，为 MoE 框架和其他模块化架构的未来研究提供了启示。

Jun, 2024

利用分布专家进行终身语言预训练

本文提出了 Lifelong-MoE，一种基于扩展的 MoE（Expansive Mixture-of-Experts）架构的 Lifelong Learning 方法，其具有更好的 few-shot 性能，可以对大规模语料进行更好的预训练，适应不同的下游任务。

May, 2023

通过语言专业化子网络研究多语言语言模型的模块化

通过使用稀疏微调的语言子网络作为更好引导跨语言共享的手段，最近的研究提出在多语言语言模型中明确引入语言模块化。本文研究了 (1) 在没有特殊模块化干预的情况下，语言模块化自然形成的程度，以及 (2) 这种模型与具有显式稀疏微调引导的子网络模块化的模型之间跨语言共享和干扰的差异。通过使用训练数据归因方法来量化语言专门化和跨语言交互，我们的结果表明，语言专门化的子网络确实自然形成，并且稀疏微调不一定增加模块化，而是可能减少子网络的语言专门化，更倾向于进行跨语言共享。

Nov, 2023

用预训练模块化 Transformer 解除多语言性的诅咒

该研究通过引入语言特定模块解决了多语言预训练模型中语言性能下降的问题，并在自然语言推断，命名实体识别和问答等方面证明了该方法的有效性，同时也使得可以在不降低性能的情况下添加新的语言。

May, 2022

GP-MoLFormer: 分子生成的基础模型

训练数据记忆和新颖性受训练数据质量影响；GP-MoLFormer 可用于生成新颖、有效且独特的分子；在三个不同任务上，GP-MoLFormer 表现良好或相当，展示了它的通用性。

Apr, 2024

CodeGen2：训练大型语言模型处理编程和自然语言的经验教训

本文研究如何通过整合模型架构、学习方法、填充采样和数据分布等四个关键组件来提高大型语言模型在程序综合方面的训练效率，并在 1B LLMs 上开展了一系列实验，提炼出四个教训并发布了 CodeGen2 模型和训练框架。

May, 2023

MM1: 多模态 LLM 预训练的方法、分析与洞察

讨论构建出色的多模态大型语言模型的重要组成部分和数据选择，通过仔细和全面的分析，证明了使用图像 - 标题、交错图像 - 文本和仅文本数据进行大规模多模态预训练对于在多个基准测试中实现最新成果至关重要。通过扩展所提出的模型，构建了以稠密模型和专家混合模型为特征的 MM1 系列多模态模型，这些模型在预训练指标上取得最新成果，并在一系列已建立的多模态基准测试中实现了有竞争力的性能。

Mar, 2024