权重子克隆：使用更大预训练模型直接初始化 Transformer

Dec, 2023

权重子克隆：使用更大预训练模型直接初始化 Transformer

Weight subcloning: direct initialization of transformers using larger pretrained ones

Mohammad Samragh, Mehrdad Farajtabar, Sachin Mehta, Raviteja Vemulapalli, Fartash Faghri...

TL;DR用权重子克隆（weight subcloning）技术从大型预训练模型中初始化规模较小的转换器模型，实现训练速度的显著提升。

Abstract

Training large transformer models from scratch for a target task requires lots of data and is computationally demanding. The usual practice of transfer learning overcomes this challenge by initializing the model with weights of a →

transformer models transfer learning pretrained model weight subcloning training speed

发现论文，激发创造

使用较大模型进行初始化

权重选择为在资源受限环境中训练小型模型提供一种新的方法，通过从预训练的大型模型中选择一部分权重，将知识迁移到更小的模型上，从而显著提升小型模型的性能并减少训练时间。

Nov, 2023

学习如何扩展预训练模型以进行高效 Transformer 训练

通过对预训练的 transformer 的参数学习，使用线性变换因子初始化更大的模型，实现更快的 transformer 训练，并且减少了高达 50% 的计算成本。

Mar, 2023

利用多线性算子对预训练模型进行高效训练的复用

我们提出了一种方法，通过线性关联目标模型的每个权重与预训练模型的所有权重，进一步增强加速能力，从而节省 76％的计算成本，超过 bert2BERT 12.0％和 LiGO 20.7％的性能。

Oct, 2023

从深度 Transformer 学习轻量级翻译模型

本文提出了一种新颖的基于群排列的知识蒸馏方法，将深度 Transformer 模型压缩为浅层模型，并通过随机遗漏 sub-layers 的 Skipping Sub-Layer 方法来进一步提高模型性能，在保证几乎不丢失 BLEU 的情况下，将学习时间和计算量降低了 8 倍，证明了该方法在多个基准测试中的有效性。

Dec, 2020

自注意力层的拟态初始化

通过模仿预训练 Transformer 的权重，使用模拟初始化方案沿用这些权重，能在视觉任务中提高 Vanilla Transformers 的最终准确度，并使训练速度更快。

May, 2023

一个单层随机加权 Transformer 中隐藏了什么？

通过对单层随机权重神经网络应用不同的二值掩模，我们发现这些子网络在机器翻译任务上可以实现惊人的性能，同时又不需要修改初始权重；我们还证明了更大更深的 Transformer 和不同初始化方法的有效性，这些发现可以匹敌训练过的 Transformer，在 IWSLT14／WMT14 上分别达到了 29.45／17.29 BLEU（匹配 98％／92％，即 34.14／25.24 BLEU）的性能。

Sep, 2021

LEMON: 无损模型扩展

通过利用较小但已经预训练的模型的权重来初始化缩放模型，并使用专门为缩放模型设计的优化学习率调度器进行模型训练，LEMON 有效地减少了训练时间，降低了计算成本。

Oct, 2023

基于扩散的神经网络权重生成

通过数据集条件的预训练权重采样，我们提出了一种高效且适应性强的迁移学习方案，通过学习一组预训练权重的分布来实现神经网络在未见数据集上的自适应采样，从而实现更快的收敛速度和更优的性能。

Feb, 2024

训练大模型，压缩小模型：重新思考 Transformers 的高效训练与推断模型大小

研究表明，即使较小的 Transformer 模型在每次迭代中执行更快，较宽且较深的模型在明显更少的步骤中收敛。此外，大型模型比小型模型更 robust，因此，高度压缩的大型模型实现比轻度压缩的小型模型更高的准确性

Feb, 2020

高效扩展：基于预训练和微调的 Transformer 技术洞见

本文提出了来自于预训练和微调 Transformer 的缩放见解，并展示了改进的缩放协议，使得重新设计的模型在 downstream fine-tuning 方面具有相似的质量，同时参数数量减少了 50％，训练速度比广泛采用的 T5-base 模型快了 40％。

Sep, 2021