Mar, 2023

PanGu-Σ: 用稀疏异构计算实现万亿参数语言模型

TL;DR本文介绍了使用 MindSpore 在 Ascend 910 人工智能处理器集群上训练的具有 1.085T 参数的 PanGu-Sigma 语言模型,其使用 Random Routed Experts (RRE) 的密集 Transformer 模型来扩展,通过使用 Expert Computation 和 Storage Separation (ECSS) 在 329B 令牌上高效地训练。实验结果显示,PanGu-Sigma 在各种中文 NLP 下游任务的零 - shot 学习中提供了最先进的性能。此外,当在开放式对话、问答、机器翻译和代码生成的应用数据中进行微调时,PanGu-Sigma 表现出了强大的能力。