基于阶段性权重共享的学习基因探索初始化变尺寸模型

Apr, 2024

基于阶段性权重共享的学习基因探索初始化变尺寸模型

Exploring Learngene via Stage-wise Weight Sharing for Initializing Variable-sized Models

Shi-Yu Xia, Wenxuan Zhu, Xu Yang, Xin Geng

TL;DR建立适应不同应用场景中多样资源约束的变量大小模型，权重初始化是训练前的重要步骤。Learngene 框架通过从大型已训练模型中学习一部分紧凑的 Learngene，再将其扩展用于初始化变量大小模型。本文分析了指导已训练 Learngene 层扩展的重要性，提出了一种称为 SWS（逐阶段权重共享）的简单而高效的 Learngene 方法，其中 Learngene 层和其学习过程对于在不同规模上初始化模型提供知识和指导。在 ImageNet-1K 上的大量实验证明，SWS 相对于从头开始训练的许多模型，性能更好且减少了约 6.6 倍的总训练成本。在某些情况下，SWS 经过 1 轮调优后效果更好。当初始化适应不同资源约束的变量大小模型时，与预训练和微调方法相比，SWS 在减少约 20 倍的存储参数以及约 10 倍的预训练成本的同时取得更好的结果。

Abstract

In practice, we usually need to build variable-sized models adapting for diverse resource constraints in different application scenarios, where weight initialization is an important step prior to training. The learngene

variable-sized models weight initialization learngene framework stage-wise weight sharing initializing models

发现论文，激发创造

WAVE: 变长模型自适应初始化的权重模板

針對模型初始化問題，本文提出了一種名為 WAVE 的多任務初始化方法，該方法在目標模型初始化過程中使用可調節的權重模板來改善預訓練模型不相容問題，並通過知識蒸餾將預訓練模型的知識轉移到結構化知識中，從而實現更高效的模型初始化和知識傳遞。

Jun, 2024

作为学习基因的线性扩展的变压器

扩展共享 Transformer 模块以生成和初始化具有不同深度的 Transformer，以适应动态资源约束。

Dec, 2023

使用较大模型进行初始化

权重选择为在资源受限环境中训练小型模型提供一种新的方法，通过从预训练的大型模型中选择一部分权重，将知识迁移到更小的模型上，从而显著提升小型模型的性能并减少训练时间。

Nov, 2023

朝可扩展和多用途的权重空间学习迈进

SANE 是一种权重空间学习方法，通过对神经网络的子集进行顺序处理，将较大的神经网络嵌入到学习表示空间中，并从层次嵌入中揭示全局模型信息，可生成新的神经网络模型，并在权重表示学习基准测试中达到或超过现有最先进方法的性能。

Jun, 2024

深入探究神经架构搜索中的权重共享

本文探究权重共享对神经架构搜索的影响，发现权重共享导致模型表现差异显著，同时也可以从共享权重的超级神经网络中提取有价值的信息，并提出适度减少权重共享的方法来减少差异性并提高性能。

Jan, 2020

平均权重导致更宽的随机局部极小值和更好的泛化

通过在 SGD 轨迹上抽样多个点进行简单平均，Stochastic Weight Averaging（SWA）过程实现了比传统训练更好的泛化，SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着测试精度提高，而且 SWA 实现简单、无几乎不需要计算成本。

Mar, 2018

具有后阶段权重的神经网络

使用随机梯度下降法训练神经网络时，通过加权平均一部分训练好的参数，可以获得更好的结果，而这种方法不会增加计算成本，可在 CIFAR-10/100，ImageNet 和其他测试集上得到验证。

Jul, 2020

分享还是不分享：对共享权重的全面评估

本研究采用 NASbench 数据集来测试 Weight-sharing 算法在搜索空间上的效率，通过与随机搜索的比较，我们发现虽然两种方式的结果具有一定的相关性，但 Weight-sharing 算法并不能显著提高了神经架构搜索的效率，且我们强调搜索空间本身的影响。

Feb, 2020

权重增强：从未辜负其模型

这篇论文提出了权重增强策略 (WAS)，通过随机变换权重系数训练和转换后的系数 (SW) 来影响参数更新，使网络具有高鲁棒性和准确性，适用于各种深度学习网络模型，并且实验证明其在各种网络上的效果都非常好。

May, 2024

权重子克隆：使用更大预训练模型直接初始化 Transformer

用权重子克隆（weight subcloning）技术从大型预训练模型中初始化规模较小的转换器模型，实现训练速度的显著提升。

Dec, 2023