PanGu-Σ: 用稀疏异构计算实现万亿参数语言模型

Mar, 2023

PanGu-Σ: 用稀疏异构计算实现万亿参数语言模型

PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing

Xiaozhe Ren, Pingyi Zhou, Xinfan Meng, Xinjing Huang, Yadao Wang...

TL;DR本文介绍了使用 MindSpore 在 Ascend 910 人工智能处理器集群上训练的具有 1.085T 参数的 PanGu-Sigma 语言模型，其使用 Random Routed Experts (RRE) 的密集 Transformer 模型来扩展，通过使用 Expert Computation 和 Storage Separation (ECSS) 在 329B 令牌上高效地训练。实验结果显示，PanGu-Sigma 在各种中文 NLP 下游任务的零 - shot 学习中提供了最先进的性能。此外，当在开放式对话、问答、机器翻译和代码生成的应用数据中进行微调时，PanGu-Sigma 表现出了强大的能力。

Abstract

The scaling of large language models has greatly improved natural language understanding, generation, and reasoning. In this work, we develop a system that trained a trillion-parameter language model on a cluster

large language models trillion-parameter language model pangu-sigma sparse transformer model chinese nlp tasks

发现论文，激发创造

PanGu-$α$: 大规模自回归预训练中文语言模型及自动并行计算

本文介绍了在 MindSpore 框架下使用 2048 Ascend 910 AI 处理器集群训练了包含 2000 亿个参数的 PanGu-alpha 预训练语言模型及其并行算法，测试了其在各种场景下的生成能力 (包括文本摘要、问答、对话生成等) 以及探究其在零样本及少样本情况下的表现，证明了其在这些任务中的卓越能力。

Apr, 2021

重新思考微型语言模型的优化和架构

通过实证研究基于一个亿参数的小型语言模型，在神经网络结构、参数初始化和优化策略三个方面分析了每个组件的影响，找到了多个设计公式，如令牌压缩、结构微调、参数继承和多轮训练等，证实了它们对小型语言模型的有效性，进一步优化和改进模型的效果明显，验证了其优越性能。

Feb, 2024

Megatron-LM：使用模型并行训练十亿级语言模型

本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法，并且通过在 WikiText103，LAMBADA 和 RACE 数据集中取得了最先进的结果，证明了大型语言模型可以进一步推进最先进的技术。

Sep, 2019

PanGu-$π$: 通过非线性补偿提高语言模型架构

我们分析了现有的语言模型架构，发现特征崩溃问题，然后根据理论分析提出了一种增强语言模型非线性的新的高效模型架构，命名为 PanGu-$\pi$，并通过实验证明了其在效率和准确性方面的优势。

Dec, 2023

Yuan 1.0：零样本学习和少样本学习中的大规模预训练语言模型

本研究提出了一种方法，将分布式训练性能纳入模型架构设计中，用于构建 245B 参数的大型单例语言模型 Yuan 1.0，在千万台 GPU 上取得了优异的性能，并在自然语言处理任务中取得了最新成果，同时还建立了当前质量最高的 5TB 中文语料库。此外，本研究还提出了数据处理方法和校准与标签扩展方法，以提高零样本和少样本准确性。Yuan 1.0 表现出强大的自然语言生成能力，其生成的文章很难与人类撰写的文章区分开来。

Oct, 2021

GLaM: 使用专家混合方法高效扩展语言模型

本文提出了一种名为 GLaM（通用语言模型）的语言模型，采用稀疏的专家混合体系结构，可以提高模型容量同时降低训练成本。该模型可规模化至 1.2 万亿参数，性能优于 GPT-3，且训练花费和计算资源开销较小。

Dec, 2021

CPM：一个大规模生成式中文预训练语言模型

本文介绍了使用大规模的中文训练数据进行生成式预训练的中国预训练语言模型 (CPM)。CPM 是目前拥有最大的 26 亿参数和 100GB 中文训练数据的中文预训练语言模型，可用于解决多个中文 NLP 任务，并在少样本甚至零样本学习的设置下取得了较强的性能。

Dec, 2020

面向科学发现的万亿参数人工智能服务基础设施：调研与展望

深度学习方法正在转变研究，实现新技术并最终导致新的发现。我们描述了面向科学界特定需求的千亿参数模型（TPM）用户和提供者生态系统的愿景，然后概述了为了支持科学研究和发现而服务 TPMs 的系统设计所面临的重大技术挑战和开放问题，包括描述了支持研究人员多样化和灵活需求的全面软件堆栈和接口的要求。

Feb, 2024

PanGu-Coder：利用函数级别语言建模的程序综合

PanGu-Coder 是一种预训练的仅解码器语言模型，在文本到代码生成方面采用 PanGu-Alpha 架构，使用因果语言建模和屏蔽语言建模的训练方法，以实现在自然语言问题描述的情况下对编程语言解决方案进行综合的代码生成和优化。

Jul, 2022

mGPT: 少样本学习器转向多语言

本文介绍了两种自回归 GPT 类模型，使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索，展示了多种任务上的表现，包括分类、生成、序列标记和知识探测，在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。

Apr, 2022