利用多线性算子对预训练模型进行高效训练的复用
通过对预训练的 transformer 的参数学习,使用线性变换因子初始化更大的模型,实现更快的 transformer 训练,并且减少了高达 50% 的计算成本。
Mar, 2023
本文提出了 bert2BERT,通过参数初始化有效地将现有较小的预训练模型(如 BRET_BASE)的知识转移到大型模型(如 BERT_LARGE),并通过提出高级知识进一步改进大型模型的初始化以及两阶段预训练方法,以此显着提高大型模型的预训练效率,这个方法被证明要比从头开始训练,StackBERT 和 MSLT 并使用不同类型的预训练模型的基线方法显着节省训练成本,特别是 bert2BERT 通过重复使用几乎是其一半大小的模型,将 BERT_BASE 和 GPT_BASE 的预训练计算成本节省约 45% 和 47%。
Oct, 2021
我们提出了一个多层框架,通过合并和解散以及插值操作来加速训练,从而降低了 BERT/GPT-Base 模型的计算成本约 20%,以及 BERT-Large 模型的计算成本高达 51.6%,同时保持了性能。
Apr, 2024
本文旨在通过对 Transformer 增长的探索来指导渐进式训练,发现复合缩放方法可以平衡模型的深度、宽度和输入的长度,并通过比较实验探索每个维度的替代增长操作,最终使 BERT 的预训练加快 73.6%(基本模型)和 82.2%(大模型),并达到相当的性能。
Oct, 2020
用权重子克隆(weight subcloning)技术从大型预训练模型中初始化规模较小的转换器模型,实现训练速度的显著提升。
Dec, 2023
通过线性插值发现预训练 - 微调模型之间的交叉任务线性性,揭示神经网络在参数空间到特征空间的映射机制,提供了关于模型合并 / 编辑的新见解,并强调了预训练的影响因素。
Feb, 2024
本文提出了一种基于 many-to-many layer mapping 的 BERT 蒸馏方法,利用 Earth Mover's Distance 计算知识传递的最小累积代价,并采用成本注意机制自动学习传递层权重,以在 GLUE 基准测试上实现与强竞争对手相当的性能表现和模型压缩。
Oct, 2020
介绍了一种名为 CLP-Transfer 的跨语言和渐进式迁移学习方法,将预训练模型从一个源语言转移到一个新的目标语言,实现了资源高效的训练,同时解决了资源不足的语言之间的表现差距问题,并比单纯的跨语言传输要好。
Jan, 2023
本文通过研究发现,预先训练的语言模型可以通过从少量反例中进行泛化来提高对数据中偶然现象的鲁棒性。当这些少数情况很少时,预训练模型表现与从头开始训练的模型一样差。在极端的少数情况下,我们提出使用多任务学习(MTL)来提高泛化能力。我们在自然语言推断和释义识别上的实验表明,MTL 可显着提高在具有挑战性的情况下的性能,而不会影响分布内性能。此外,我们表明,MTL 带来的增益主要是从极少数情况的改善泛化能力中获得的。我们的结果突显了克服偶然相关性的数据多样性的重要性。
Jul, 2020