Cerebras-GPT：基于 Cerebras 晶片集群训练的优化开放式云算模型

Apr, 2023

Cerebras-GPT：基于 Cerebras 晶片集群训练的优化开放式云算模型

Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster

Nolan Dey, Gurpreet Gosal, Zhiming, Chen, Hemant Khachane...

TL;DR通过高效的预训练和扩展、开放数据集和工具来改善大语言模型的最近研究进展；我们将这些进展结合起来，推出了 Cerebras-GPT，这是一个从 111M 扩展到 13B 参数的开放计算最优语言模型家族；我们在 Eleuther Pile 数据集上训练 Cerebras-GPT 模型，并使用 DeepMind Chinchilla 规则进行高效预训练，比较 Cerebras-GPT 和其他公开可用模型，以展示 Cerebras-GPT 上所有模型均在预训练和下游目标上具有最先进的训练效率。我们描述了我们的经验教训，包括最大更新参数化（μP）如何进一步改善大型模型扩展，在规模上提高精度和超参数预测可预测性；我们发布了我们的预训练模型和代码，使本文成为首个将计算最优模型缩放与基于固定数据集尺寸训练的模型进行比较的开放和可重复使用的工作。

Abstract

We study recent research advances that improve large language models through efficient pre-training and scaling, and →

large language models efficient pre-training scaling open datasets cerebras-gpt

发现论文，激发创造

跨语言持续预训练在规模上的突破

本文研究了以持续预训练（CPT）的方式构建新语言的大型语言模型（LLMs），并通过 40 个模型规模的并行实验表明：1）CPT 能够快速收敛并以可扩展的方式节省大量计算资源；2）CPT 遵循 Hoffmann 等人（2022）提出的扩展缩放定律，具有联合数据 - 参数缩放项；3）根据估计的扩展因子，CPT 的计算最优数据 - 参数分配存在显著差异；4）在训练持续时间和语言属性的影响下，规模化的迁移效果可以通过数据重播的方法有效减轻灾难性遗忘。希望我们的发现对研究界在规模化 LLMs 的可迁移性方面提供深入的见解。

Jul, 2024

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023

训练最优的大型语言模型

本文研究在给定计算预算下训练变换器语言模型的最佳模型大小和标记数量，并发现对于计算优化的训练，模型大小和训练标记数量应该等量缩放。同时测试了此假设通过训练一个预测计算最优模型的 Chinchilla，该模型在大范围的下游评估任务中均匀且显著地优于 Gopher，GPT-3，Jurassic-1 和 Megatron-Turing NLG。

Mar, 2022

更多计算是您所需之物

基于新的缩放定律，我们推测模型性能主要取决于计算经费的使用，而与模型大小和数据集大小的具体分配无关。根据统一的缩放定律，我们预测（a）训练应优先考虑较小的模型大小和较大的训练数据集以提高推理效率，（b）假设可用的网络数据集已耗尽，扩大模型大小可能是进一步改善模型性能的唯一途径。

Apr, 2024

fMRI 中语言编码模型的尺度定律

本文研究使用基于 Transformer 的语言模型，比较了不同模型尺寸与训练数据规模对于预测功能性磁共振成像记录下的脑活动响应的影响。结果显示，当模型或数据规模增大时，在音频与语言预测方面均能获得显著性提升，这为在理解大脑语言处理机制和实际的解码应用上提供了改善的可能。

May, 2023

用戶友好且開源的大型 GPT 模型的研究：對語言、多模態和科學 GPT 模型的調查

通过本综述论文，我们对大规模 GPT 模型的可替代开源模型进行了研究，重点关注用户友好和相对小型的模型，以促进更容易部署和访问。通过这个广泛的调查，我们旨在为研究人员、实践者和爱好者提供对大规模 GPT 模型的用户友好和相对小型的开源模型的深入了解，包括它们的当前状态、挑战和未来研究方向，以激发更高效、易于访问和多功能的 GPT 模型的开发，以满足更广泛的科学界需求，推动通用人工智能领域的发展。

Aug, 2023

CPM：一个大规模生成式中文预训练语言模型

本文介绍了使用大规模的中文训练数据进行生成式预训练的中国预训练语言模型 (CPM)。CPM 是目前拥有最大的 26 亿参数和 100GB 中文训练数据的中文预训练语言模型，可用于解决多个中文 NLP 任务，并在少样本甚至零样本学习的设置下取得了较强的性能。

Dec, 2020

使用张量列车矩阵表示的高效 GPT 模型预训练

本研究通过将全连接层的矩阵替换为相应的张量列车矩阵结构以减少 GPT-2 体系结构的参数数量，并提出了一种可扩展的张量化层，以提高模型效率和最终模型的稳定性。

Jun, 2023

GLaM: 使用专家混合方法高效扩展语言模型

本文提出了一种名为 GLaM（通用语言模型）的语言模型，采用稀疏的专家混合体系结构，可以提高模型容量同时降低训练成本。该模型可规模化至 1.2 万亿参数，性能优于 GPT-3，且训练花费和计算资源开销较小。

Dec, 2021

TinyGPT-V: 通过小型骨干实现高效的多模态大型语言模型

在先进的多模式学习时代，本文介绍了 TinyGPT-V 这一低计算资源需求的多模式大型语言模型，通过小型骨干网络实现了高效的语言 - 视觉交互，为设计成本效益高、高性能的多模式大型语言模型的进一步发展提供了基础。

Dec, 2023