通过渐进子网络实现高效的分步预训练

Feb, 2024

通过渐进子网络实现高效的分步预训练

Efficient Stagewise Pretraining via Progressive Subnetworks

Abhishek Panigrahi, Nikunj Saunshi, Kaifeng Lyu, Sobhan Miryoosefi, Sashank Reddi...

TL;DR近期大型语言模型的发展引发了对高效预训练方法的关注，本论文提出了一种阶段递增训练的替代框架 -- 渐进子网络训练，其中的一个简单实例是随机路径训练（RaPTr），通过在每一步中只训练模型内的子路径，逐步增加路径长度，RaPTr 可以在对 BERT 和 UL2 语言模型进行更好的预训练损失的同时，相比标准训练，减少 20-33％的 FLOPs，并在其他高效训练方法中具备竞争力甚至更好。此外，RaPTr 在 UL2 上表现出更好的下游性能，对 QA 任务和 SuperGLUE 的改进幅度相比标准训练和堆叠模型可达 1-5％。最后，我们为 RaPTr 提供了理论基础，以证明（a）子网络在各阶段的复杂性递增，以及（b）由于残差连接和层归一化而导致的损失在阶段转换中的稳定性。

Abstract

Recent developments in large language models have sparked interest in efficient pretraining methods. A recent effective paradigm is to perform st

large language models efficient pretraining methods stage-wise training progressive subnetwork training random path training (raptr)

发现论文，激发创造

利用渐进式层丢弃加速基于 Transformer 的语言模型训练

本文提出了基于渐进式层丢弃的方法，通过模型结构和训练技术的提升效率，加速了基于 Transformer 的语言模型的训练，相较于基准实验可以在每个样本上平均节省 24% 的时间，让预训练速度提高 2.5 倍，同时保持强的知识可迁移性。

Oct, 2020

大型语言模型的进化子网络训练

基于大规模语言模型参数冗余的启发，我们提出了一种新的训练范式：进化子网络训练（EST），并将其应用于训练 GPT2 和 TinyLlama 模型，从而实现了 26.7％的 FLOPs 节省以及在下游任务中的性能提升，从而减少了训练成本并提高了泛化性能。

Jun, 2024

为渐进式训练语言模型准备课程

Apollo 方法使用低价值优先采样（LVPS）训练不同深度的模型，并使用权重共享来促进高效的扩展，通过插值方法实现稳定的模型深度扩展，既提高了训练效率，也降低了时间、财务和环境成本。

Jan, 2024

无监督单通道重叠语音识别中的渐进联合建模

提出一种基于模块化结构、渐进式预训练、转移学习以及鉴别性训练标准的神经网络模型，相较于现有模型，该模型在解决无监督单通道重叠语音识别方面表现更为优秀，能够取得超过 30% 的远程词错误率相对改进。

Jul, 2017

渐进式 BERT 训练中的 Transformer 增长

本文旨在通过对 Transformer 增长的探索来指导渐进式训练，发现复合缩放方法可以平衡模型的深度、宽度和输入的长度，并通过比较实验探索每个维度的替代增长操作，最终使 BERT 的预训练加快 73.6％（基本模型）和 82.2％（大模型），并达到相当的性能。

Oct, 2020

一次双赢的交易：朝着稀疏和鲁棒的预训练语言模型迈进

本文研究细粒度子网络（SRNets）在预训练语言模型（PLMs）中的应用，尤其是在处理 Out-of-Distribution 数据方面的可行性。我们对 BERT 模型进行了广泛的实验，结果表明 SRNets 在不影响性能的情况下可以通过不同的训练和压缩方法来实现。此外，我们发现在 Out-of-Distribution 数据中可以获得稀疏且几乎无偏差的 BERT 子网络。最后，我们提出了解决 SRNets 搜索过程中高效性的方法，并提出了改善子网络性能的解决方案。

Oct, 2022

VeLoRA：使用排序 - 1 子标记投影的内存高效训练

通过梯度下降，我们确认了大型语言模型的有效模型收敛所需的重要组件，并提出了一种廉价且内存高效的算法来进行微调和预训练大型语言模型。

May, 2024

一种自适应随机路径选择方法用于增量学习

本文提出了自适应随机路径选择网络（Adaptive RPS-Net）算法，并通过使用新任务的最优路径和任务之间参数共享的方式，提高了网络的灵活性和运行效率。使用知识蒸馏和回顾策略，以及路径重用策略来防止灾难性遗忘，通过动态平衡模型可塑性的简单控制器来维护先前和新获取的知识之间的平衡关系。实验证明，该方法在连续学习和速度方面都具有优势。

Jun, 2019

通过任务无关的掩码训练在 BERT 转移上学习赢得彩票的方法

本文通过对 BERT 子网络的研究发现直接优化子网络结构能更好地保留预训练性能，探究了幸运彩票假设、幅度剪枝和二值掩码训练等方法在 BERT 子网络中的应用，发现二值掩码训练方法在寻找改进 BERT 子网络性能方面更加有效。

Apr, 2022

加速训练 Transformer 模型的多层框架

我们提出了一个多层框架，通过合并和解散以及插值操作来加速训练，从而降低了 BERT/GPT-Base 模型的计算成本约 20%，以及 BERT-Large 模型的计算成本高达 51.6%，同时保持了性能。

Apr, 2024