堆叠您的 Transformer：深入研究用于高效 LLM 预训练的模型扩展

May, 2024

堆叠您的 Transformer：深入研究用于高效 LLM 预训练的模型扩展

Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training

Wenyu Du, Tongxu Luo, Zihan Qiu, Zeyu Huang, Yikang Shen...

TL;DRLLM 预训练中，模型增长方法和深度叠加算子 G_stack 被证明在训练加速、性能提升和可扩展性方面具有潜力。

Abstract

llms are computationally expensive to pre-train due to their large scale. Model growth emerges as a promising approach by leveraging smaller models to accelerate the training of larger ones. However, the viability of these model growth methods in efficient →

llms model growth methods atomic growth operators g_stack llm pre-training

发现论文，激发创造

GrowLength: 通过逐步增长训练长度来加速 LLMs 预训练

通过增加训练长度加速大型语言模型 (LLL) 的预训练过程，从而提高效率、减少计算成本，并改善性能。

Oct, 2023

学习如何扩展预训练模型以进行高效 Transformer 训练

通过对预训练的 transformer 的参数学习，使用线性变换因子初始化更大的模型，实现更快的 transformer 训练，并且减少了高达 50% 的计算成本。

Mar, 2023

Transformer 语言模型分阶段训练

本文提出了一种基于阶段训练和生长算子的语言模型训练方法，通过增加模型的深度和宽度以节省计算资源，并利用缩放定律和训练动态来优化训练阶段，实验结果显示与基于随机初始化的传统模型相比，该方法能够实现高达 22% 的计算资源节省。

Mar, 2022

渐进式 BERT 训练中的 Transformer 增长

本文旨在通过对 Transformer 增长的探索来指导渐进式训练，发现复合缩放方法可以平衡模型的深度、宽度和输入的长度，并通过比较实验探索每个维度的替代增长操作，最终使 BERT 的预训练加快 73.6％（基本模型）和 82.2％（大模型），并达到相当的性能。

Oct, 2020

DeepStack: 深度堆叠视觉令牌在 LMMs 中的惊人简洁和高效

该研究提出一种新的架构 DeepStack 用于大型多模态模型（LMMs），通过将视觉令牌分组堆叠到与之对应的转换层以增强 LMMs 的建模能力，并在广泛的实证结果中验证了 DeepStack LMMs 的有效性。

Jun, 2024

提高大型语言模型的推理效率：研究优化策略与架构创新

通过跳过 Transformer LLMs 中后面的 attention 子层，可以有效地对大型语言模型进行压缩，提升性能并降低计算成本。在 Llama 2 7B 上观察到 21% 的生成速度提升，并出乎意料地改善了在多个常见基准测试中的性能。

Apr, 2024

高稀疏性基础 Llama 模型的高效预训练和部署

通过稀疏性，我们能够以较小的模型实现更快的训练和推理加速，并且不牺牲准确性。

May, 2024

通过掩码形态生长加速两倍的语言模型预训练

本文主要介绍了一种名为 msg 的技术，提出了一种新的增长调度方案，其中包括所有可能的尺寸，并且是独立于新权重初始化的严格函数保持增长运算符。实验证明，与相关工作相比，MSG 速度提高了 80％的 Bert-base 和 120％的 Bert-large 预训练，并且能够同时提高调优性能

May, 2023

简单且可扩展的策略，用于持续预训练大型语言模型

大型语言模型的持续学习策略可以通过简单且可扩展的方法成功更新模型，同时只需使用一小部分计算资源来达到重新训练的效果。

Mar, 2024

CodeGen2：训练大型语言模型处理编程和自然语言的经验教训

本文研究如何通过整合模型架构、学习方法、填充采样和数据分布等四个关键组件来提高大型语言模型在程序综合方面的训练效率，并在 1B LLMs 上开展了一系列实验，提炼出四个教训并发布了 CodeGen2 模型和训练框架。

May, 2023