作为学习基因的线性扩展的变压器

Dec, 2023

作为学习基因的线性扩展的变压器

Transformer as Linear Expansion of Learngene

Shiyu Xia, Miaosen Zhang, Xu Yang, Ruiming Chen, Haokun Chen...

TL;DR扩展共享 Transformer 模块以生成和初始化具有不同深度的 Transformer，以适应动态资源约束。

Abstract

We propose expanding the shared transformer module to produce and initialize Transformers with diverse depths, enabling adaptation to dynamic resource constraints. Drawing an analogy to genetic expansibility, we

shared transformer module learngene transformer as linear expansion of learngene (tleg)diverse depths resource constraints

发现论文，激发创造

学习如何扩展预训练模型以进行高效 Transformer 训练

通过对预训练的 transformer 的参数学习，使用线性变换因子初始化更大的模型，实现更快的 transformer 训练，并且减少了高达 50% 的计算成本。

Mar, 2023

LEMON: 无损模型扩展

通过利用较小但已经预训练的模型的权重来初始化缩放模型，并使用专门为缩放模型设计的优化学习率调度器进行模型训练，LEMON 有效地减少了训练时间，降低了计算成本。

Oct, 2023

基于阶段性权重共享的学习基因探索初始化变尺寸模型

建立适应不同应用场景中多样资源约束的变量大小模型，权重初始化是训练前的重要步骤。Learngene 框架通过从大型已训练模型中学习一部分紧凑的 Learngene，再将其扩展用于初始化变量大小模型。本文分析了指导已训练 Learngene 层扩展的重要性，提出了一种称为 SWS（逐阶段权重共享）的简单而高效的 Learngene 方法，其中 Learngene 层和其学习过程对于在不同规模上初始化模型提供知识和指导。在 ImageNet-1K 上的大量实验证明，SWS 相对于从头开始训练的许多模型，性能更好且减少了约 6.6 倍的总训练成本。在某些情况下，SWS 经过 1 轮调优后效果更好。当初始化适应不同资源约束的变量大小模型时，与预训练和微调方法相比，SWS 在减少约 20 倍的存储参数以及约 10 倍的预训练成本的同时取得更好的结果。

Apr, 2024

EXPANSE：深度迁移学习的深度继续 / 渐进学习系统

提出了一种名为 EXPANSE 的新的深度转移学习方法，通过扩展网络层来避免遗忘和过度偏置的问题，并引入了基础课程和复杂性学习的两阶段培训方式，该方法在处理远程源和目标数据方面取得了成功。

May, 2022

渐进式 BERT 训练中的 Transformer 增长

本文旨在通过对 Transformer 增长的探索来指导渐进式训练，发现复合缩放方法可以平衡模型的深度、宽度和输入的长度，并通过比较实验探索每个维度的替代增长操作，最终使 BERT 的预训练加快 73.6％（基本模型）和 82.2％（大模型），并达到相当的性能。

Oct, 2020

Transformer-XL: 超越固定长度上下文的关注式语言模型

提出了一种名为 Transformer-XL 的神经架构，它能够在语言模型的设定中超越固定长度的依赖关系，并且不会破坏时间上的一致性。通过分段级别的循环机制和一种新颖的位置编码方案，Transformer-XL 不仅能够捕捉更长期的依赖关系，而且还解决了上下文破碎问题。在评估期间，它的速度比普通的 Transformers 要快 1,800 多倍，并且在短序列和长序列上表现更好。实验结果显示，在多个语料库上，Transformer-XL 都比目前的最先进结果表现要好。

Jan, 2019

通过令牌扩展的 Transformer 通用高效训练

我们提出了一种名为 ToE 的新型令牌增长方案，用于实现 ViTs 的一致训练加速，通过维护原始 Transformer 的中间特征分布的完整性，防止训练过程中关键可学习信息的丢失。实验结果表明，ToE 无损地实现了约 1.3 倍的 ViTs 训练加速，甚至在全令牌训练基准上取得了性能提升。

Mar, 2024

可组合功能保持扩展的 Transformer 架构

通过逐步增加转换器神经网络的大小，以保留功能，并在最小初始化约束下提供确切的功能保留证明，本研究提出六种组合的转换方法，可能通过逐步扩展架构来实现更大、更强大的模型的高效训练管道。

Aug, 2023

利用多线性算子对预训练模型进行高效训练的复用

我们提出了一种方法，通过线性关联目标模型的每个权重与预训练模型的所有权重，进一步增强加速能力，从而节省 76％的计算成本，超过 bert2BERT 12.0％和 LiGO 20.7％的性能。

Oct, 2023

LayerCollapse：神经网络的自适应压缩

利用 LayerCollapse 方法进行适应性模型压缩，通过消除网络中的非线性并将两个连续的全连接层合并为单个线性变换，同时减少层数和参数数量，提高模型效率；引入压缩感知正则化器，根据数据集质量和模型表现压缩模型，减少过拟合；实验证明 LayerCollapse 在多个细粒度分类基准测试中实现有效的压缩和正则化，最高在训练后压缩 74% 但准确度损失最小；与知识蒸馏方法对比，在 ImageNet 数据集上计算效率提高五倍，整体准确度提高 8%。

Nov, 2023