堆叠您的 Transformer:深入研究用于高效 LLM 预训练的模型扩展
通过对预训练的 transformer 的参数学习,使用线性变换因子初始化更大的模型,实现更快的 transformer 训练,并且减少了高达 50% 的计算成本。
Mar, 2023
本文提出了一种基于阶段训练和生长算子的语言模型训练方法,通过增加模型的深度和宽度以节省计算资源,并利用缩放定律和训练动态来优化训练阶段,实验结果显示与基于随机初始化的传统模型相比,该方法能够实现高达 22% 的计算资源节省。
Mar, 2022
本文旨在通过对 Transformer 增长的探索来指导渐进式训练,发现复合缩放方法可以平衡模型的深度、宽度和输入的长度,并通过比较实验探索每个维度的替代增长操作,最终使 BERT 的预训练加快 73.6%(基本模型)和 82.2%(大模型),并达到相当的性能。
Oct, 2020
该研究提出一种新的架构 DeepStack 用于大型多模态模型(LMMs),通过将视觉令牌分组堆叠到与之对应的转换层以增强 LMMs 的建模能力,并在广泛的实证结果中验证了 DeepStack LMMs 的有效性。
Jun, 2024
通过跳过 Transformer LLMs 中后面的 attention 子层,可以有效地对大型语言模型进行压缩,提升性能并降低计算成本。在 Llama 2 7B 上观察到 21% 的生成速度提升,并出乎意料地改善了在多个常见基准测试中的性能。
Apr, 2024
本文主要介绍了一种名为 msg 的技术,提出了一种新的增长调度方案,其中包括所有可能的尺寸,并且是独立于新权重初始化的严格函数保持增长运算符。实验证明,与相关工作相比,MSG 速度提高了 80%的 Bert-base 和 120%的 Bert-large 预训练,并且能够同时提高调优性能
May, 2023
本文研究如何通过整合模型架构、学习方法、填充采样和数据分布等四个关键组件来提高大型语言模型在程序综合方面的训练效率,并在 1B LLMs 上开展了一系列实验,提炼出四个教训并发布了 CodeGen2 模型和训练框架。
May, 2023