为渐进式训练语言模型准备课程

Jan, 2024

Preparing Lessons for Progressive Training on Language Models

Yu Pan, Ye Yuan, Yichun Yin, Jiaxin Shi, Zenglin Xu...

TL;DRApollo 方法使用低价值优先采样（LVPS）训练不同深度的模型，并使用权重共享来促进高效的扩展，通过插值方法实现稳定的模型深度扩展，既提高了训练效率，也降低了时间、财务和环境成本。

Abstract

The rapid progress of transformers in artificial intelligence has come at the cost of increased resource consumption and greenhouse gas emissions due to growing model sizes. Prior work suggests using pretrained s

transformers resource consumption pretrained models training efficiency model depth extension

发现论文，激发创造

利用渐进式层丢弃加速基于 Transformer 的语言模型训练

本文提出了基于渐进式层丢弃的方法，通过模型结构和训练技术的提升效率，加速了基于 Transformer 的语言模型的训练，相较于基准实验可以在每个样本上平均节省 24% 的时间，让预训练速度提高 2.5 倍，同时保持强的知识可迁移性。

Oct, 2020

加速训练 Transformer 模型的多层框架

我们提出了一个多层框架，通过合并和解散以及插值操作来加速训练，从而降低了 BERT/GPT-Base 模型的计算成本约 20%，以及 BERT-Large 模型的计算成本高达 51.6%，同时保持了性能。

Apr, 2024

跨语言和渐进式迁移学习实现高效的语言模型训练

介绍了一种名为 CLP-Transfer 的跨语言和渐进式迁移学习方法，将预训练模型从一个源语言转移到一个新的目标语言，实现了资源高效的训练，同时解决了资源不足的语言之间的表现差距问题，并比单纯的跨语言传输要好。

Jan, 2023

通过渐进子网络实现高效的分步预训练

近期大型语言模型的发展引发了对高效预训练方法的关注，本论文提出了一种阶段递增训练的替代框架 -- 渐进子网络训练，其中的一个简单实例是随机路径训练（RaPTr），通过在每一步中只训练模型内的子路径，逐步增加路径长度，RaPTr 可以在对 BERT 和 UL2 语言模型进行更好的预训练损失的同时，相比标准训练，减少 20-33％的 FLOPs，并在其他高效训练方法中具备竞争力甚至更好。此外，RaPTr 在 UL2 上表现出更好的下游性能，对 QA 任务和 SuperGLUE 的改进幅度相比标准训练和堆叠模型可达 1-5％。最后，我们为 RaPTr 提供了理论基础，以证明（a）子网络在各阶段的复杂性递增，以及（b）由于残差连接和层归一化而导致的损失在阶段转换中的稳定性。

Feb, 2024

学习如何扩展预训练模型以进行高效 Transformer 训练

通过对预训练的 transformer 的参数学习，使用线性变换因子初始化更大的模型，实现更快的 transformer 训练，并且减少了高达 50% 的计算成本。

Mar, 2023

元学习差异性：为大型语言模型准备高效迁移

该论文提出了一种通过学习区分微调和适应性 PLMs 的方法，使用动态低秩重参数化和学习结构控制器来实现数据和参数高效的自适应，并在对话完成、摘要生成等任务上展示出明显提升。

Jul, 2022

测试集上的预训练就足够了

通过精心策划的数据预训练，使用新颖的数据混合集，我们的 Transformer-based 语言模型 phi-CTNL 在多个学术基准测试中完美表现，并打破了已知基础模型的记录，同时还展现了前所未有的准确预测下游评估基准的能力。

Sep, 2023

Transformer 语言模型分阶段训练

本文提出了一种基于阶段训练和生长算子的语言模型训练方法，通过增加模型的深度和宽度以节省计算资源，并利用缩放定律和训练动态来优化训练阶段，实验结果显示与基于随机初始化的传统模型相比，该方法能够实现高达 22% 的计算资源节省。

Mar, 2022

视觉 Transformer 的自动渐进式学习，用于高效训练

该论文提出一种自适应的进阶学习自动化方案 (AutoProg)，通过在训练过程中自适应决定模型的生长量、生长位置以及生长方式等策略，从而使得模型的训练能够快速加速，且不会出现性能下降。通过 DeiT 和 VOLO 等模型在 ImageNet 上的大量实验表明，AutoProg 能够将模型的训练加速高达 85.1%。

Mar, 2022

预训练语言模型压缩和加速综述

该文章调查了预训练语言模型的压缩和加速方法，重点关注了模型在 NLP 领域推理阶段的表现，并提出为 NLP 的整个生命周期（包括数据准备、模型训练和推理）综合考虑计算、时间和碳排放的高效 NLP 研究。

Feb, 2022