LEMON: 无损模型扩展

Oct, 2023

LEMON: Lossless model expansion

Yite Wang, Jiahao Su, Hanlin Lu, Cong Xie, Tianyi Liu...

TL;DR通过利用较小但已经预训练的模型的权重来初始化缩放模型，并使用专门为缩放模型设计的优化学习率调度器进行模型训练，LEMON 有效地减少了训练时间，降低了计算成本。

Abstract

scaling of deep neural networks, especially transformers, is pivotal for their surging performance and has further led to the emergence of

scaling deep neural networks transformers model expansion pre-trained counterparts

发现论文，激发创造

图像字幕生成的视觉语言预训练规模化提升

本研究介绍了 LEMON，一个大规模图像描述生成模型，探究了基于视觉 - 语言预训练的 transformer 模型在图像描述生成中的可扩展性，并使用大量数据和不同训练方法对其进行了实验和分析，取得了多个数据集上的最新成果。

Nov, 2021

学习如何扩展预训练模型以进行高效 Transformer 训练

通过对预训练的 transformer 的参数学习，使用线性变换因子初始化更大的模型，实现更快的 transformer 训练，并且减少了高达 50% 的计算成本。

Mar, 2023

作为学习基因的线性扩展的变压器

扩展共享 Transformer 模块以生成和初始化具有不同深度的 Transformer，以适应动态资源约束。

Dec, 2023

可组合功能保持扩展的 Transformer 架构

通过逐步增加转换器神经网络的大小，以保留功能，并在最小初始化约束下提供确切的功能保留证明，本研究提出六种组合的转换方法，可能通过逐步扩展架构来实现更大、更强大的模型的高效训练管道。

Aug, 2023

大型时间序列模型的尺度定律

基于大规模语言模型的缩放定律已经在如何训练规模更大的模型以获得可预测的性能提升上提供了有用的指导。该研究表明，基于解码器的时间序列变换模型也展示了与语言模型类似的缩放行为，对于广泛范围内的架构细节（纵横比和头数）几乎没有影响。我们汇集了大量的异构时间序列数据进行训练，并首次建立了参数数量、数据集大小和训练计算量与其之间的幂律缩放关系，涵盖了五个数量级。

May, 2024

为渐进式训练语言模型准备课程

Apollo 方法使用低价值优先采样（LVPS）训练不同深度的模型，并使用权重共享来促进高效的扩展，通过插值方法实现稳定的模型深度扩展，既提高了训练效率，也降低了时间、财务和环境成本。

Jan, 2024

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023

渐进式 BERT 训练中的 Transformer 增长

本文旨在通过对 Transformer 增长的探索来指导渐进式训练，发现复合缩放方法可以平衡模型的深度、宽度和输入的长度，并通过比较实验探索每个维度的替代增长操作，最终使 BERT 的预训练加快 73.6％（基本模型）和 82.2％（大模型），并达到相当的性能。

Oct, 2020

细粒度专家混合的比例尺定律

通过分析扩展的变量范围，我们建立了适用于细粒度混合专家模型的扩展规模定律，并利用这些规律为特定计算预算推导出最佳的训练配置，结果显示 Mixture of Experts 模型在规模和训练预算扩大时始终优于密集 Transformer 模型。此外，我们证明在几乎任何计算预算下，将专家的大小设置成与前馈层相似的常见做法并不是最优的。

Feb, 2024

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020