利用多线性算子对预训练模型进行高效训练的复用

Oct, 2023

利用多线性算子对预训练模型进行高效训练的复用

Reusing Pretrained Models by Multi-linear Operators for Efficient Training

Yu Pan, Ye Yuan, Yichun Yin, Zenglin Xu, Lifeng Shang...

TL;DR我们提出了一种方法，通过线性关联目标模型的每个权重与预训练模型的所有权重，进一步增强加速能力，从而节省 76％的计算成本，超过 bert2BERT 12.0％和 LiGO 20.7％的性能。

Abstract

training large models from scratch usually costs a substantial amount of resources. Towards this problem, recent studies such as bert2BERT and LiGO have reused small →

training large models pretrained models partial mapping computational costs

发现论文，激发创造

学习如何扩展预训练模型以进行高效 Transformer 训练

通过对预训练的 transformer 的参数学习，使用线性变换因子初始化更大的模型，实现更快的 transformer 训练，并且减少了高达 50% 的计算成本。

Mar, 2023

bert2BERT：面向可重用的预训练语言模型

本文提出了 bert2BERT，通过参数初始化有效地将现有较小的预训练模型（如 BRET_BASE）的知识转移到大型模型（如 BERT_LARGE），并通过提出高级知识进一步改进大型模型的初始化以及两阶段预训练方法，以此显着提高大型模型的预训练效率，这个方法被证明要比从头开始训练，StackBERT 和 MSLT 并使用不同类型的预训练模型的基线方法显着节省训练成本，特别是 bert2BERT 通过重复使用几乎是其一半大小的模型，将 BERT_BASE 和 GPT_BASE 的预训练计算成本节省约 45% 和 47%。

Oct, 2021

加速训练 Transformer 模型的多层框架

我们提出了一个多层框架，通过合并和解散以及插值操作来加速训练，从而降低了 BERT/GPT-Base 模型的计算成本约 20%，以及 BERT-Large 模型的计算成本高达 51.6%，同时保持了性能。

Apr, 2024

渐进式 BERT 训练中的 Transformer 增长

本文旨在通过对 Transformer 增长的探索来指导渐进式训练，发现复合缩放方法可以平衡模型的深度、宽度和输入的长度，并通过比较实验探索每个维度的替代增长操作，最终使 BERT 的预训练加快 73.6％（基本模型）和 82.2％（大模型），并达到相当的性能。

Oct, 2020

权重子克隆：使用更大预训练模型直接初始化 Transformer

用权重子克隆（weight subcloning）技术从大型预训练模型中初始化规模较小的转换器模型，实现训练速度的显著提升。

Dec, 2023

参数高效的多任务模型融合与部分线性化

提出了一种部分线性化技术，用于改善多任务融合，并通过融合精调的任务向量来构建统一的多任务模型，取得了比标准参数高效微调技术更好的性能。

Oct, 2023

预训练 - 微调模式中出现的任务交叉线性

通过线性插值发现预训练 - 微调模型之间的交叉任务线性性，揭示神经网络在参数空间到特征空间的映射机制，提供了关于模型合并 / 编辑的新见解，并强调了预训练的影响因素。

Feb, 2024

BERT 压缩的多对多层映射与 Earth Mover's Distance

本文提出了一种基于 many-to-many layer mapping 的 BERT 蒸馏方法，利用 Earth Mover's Distance 计算知识传递的最小累积代价，并采用成本注意机制自动学习传递层权重，以在 GLUE 基准测试上实现与强竞争对手相当的性能表现和模型压缩。

Oct, 2020

跨语言和渐进式迁移学习实现高效的语言模型训练

介绍了一种名为 CLP-Transfer 的跨语言和渐进式迁移学习方法，将预训练模型从一个源语言转移到一个新的目标语言，实现了资源高效的训练，同时解决了资源不足的语言之间的表现差距问题，并比单纯的跨语言传输要好。

Jan, 2023

使用预训练语言模型研究对噪声相关性的鲁棒性

本文通过研究发现，预先训练的语言模型可以通过从少量反例中进行泛化来提高对数据中偶然现象的鲁棒性。当这些少数情况很少时，预训练模型表现与从头开始训练的模型一样差。在极端的少数情况下，我们提出使用多任务学习（MTL）来提高泛化能力。我们在自然语言推断和释义识别上的实验表明，MTL 可显着提高在具有挑战性的情况下的性能，而不会影响分布内性能。此外，我们表明，MTL 带来的增益主要是从极少数情况的改善泛化能力中获得的。我们的结果突显了克服偶然相关性的数据多样性的重要性。

Jul, 2020