权重子克隆:使用更大预训练模型直接初始化 Transformer
权重选择为在资源受限环境中训练小型模型提供一种新的方法,通过从预训练的大型模型中选择一部分权重,将知识迁移到更小的模型上,从而显著提升小型模型的性能并减少训练时间。
Nov, 2023
通过对预训练的 transformer 的参数学习,使用线性变换因子初始化更大的模型,实现更快的 transformer 训练,并且减少了高达 50% 的计算成本。
Mar, 2023
我们提出了一种方法,通过线性关联目标模型的每个权重与预训练模型的所有权重,进一步增强加速能力,从而节省 76%的计算成本,超过 bert2BERT 12.0%和 LiGO 20.7%的性能。
Oct, 2023
本文提出了一种新颖的基于群排列的知识蒸馏方法,将深度 Transformer 模型压缩为浅层模型,并通过随机遗漏 sub-layers 的 Skipping Sub-Layer 方法来进一步提高模型性能,在保证几乎不丢失 BLEU 的情况下,将学习时间和计算量降低了 8 倍,证明了该方法在多个基准测试中的有效性。
Dec, 2020
通过模仿预训练 Transformer 的权重,使用模拟初始化方案沿用这些权重,能在视觉任务中提高 Vanilla Transformers 的最终准确度,并使训练速度更快。
May, 2023
通过对单层随机权重神经网络应用不同的二值掩模,我们发现这些子网络在机器翻译任务上可以实现惊人的性能,同时又不需要修改初始权重;我们还证明了更大更深的 Transformer 和不同初始化方法的有效性,这些发现可以匹敌训练过的 Transformer,在 IWSLT14/WMT14 上分别达到了 29.45/17.29 BLEU(匹配 98%/92%,即 34.14/25.24 BLEU)的性能。
Sep, 2021
通过利用较小但已经预训练的模型的权重来初始化缩放模型,并使用专门为缩放模型设计的优化学习率调度器进行模型训练,LEMON 有效地减少了训练时间,降低了计算成本。
Oct, 2023
通过数据集条件的预训练权重采样,我们提出了一种高效且适应性强的迁移学习方案,通过学习一组预训练权重的分布来实现神经网络在未见数据集上的自适应采样,从而实现更快的收敛速度和更优的性能。
Feb, 2024
研究表明,即使较小的 Transformer 模型在每次迭代中执行更快,较宽且较深的模型在明显更少的步骤中收敛。此外,大型模型比小型模型更 robust,因此,高度压缩的大型模型实现比轻度压缩的小型模型更高的准确性
Feb, 2020
本文提出了来自于预训练和微调 Transformer 的缩放见解,并展示了改进的缩放协议,使得重新设计的模型在 downstream fine-tuning 方面具有相似的质量,同时参数数量减少了 50%,训练速度比广泛采用的 T5-base 模型快了 40%。
Sep, 2021