GradInit：学习为稳定和高效的训练初始化神经网络

Feb, 2021

GradInit：学习为稳定和高效的训练初始化神经网络

GradInit: Learning to Initialize Neural Networks for Stable and Efficient Training

Chen Zhu, Renkun Ni, Zheng Xu, Kezhi Kong, W. Ronny Huang...

TL;DR本文提出了一种基于 SGD 或 Adam 的预设超参数使得每个网络层的范数调整到最小损失值下的简单启发式算法 GradInit，旨在加速卷积结构和 Transformer 等神经网络模型的收敛和测试效果，而且还能提高模型训练的稳定性。

Abstract

Innovations in neural architectures have fostered significant breakthroughs in language modeling and computer vision. Unfortunately, novel architectures often result in challenging hyper-parameter choices and training instability if the network parameters are not properly initialized.

neural architectures hyperparameters sgd adam gradinit

发现论文，激发创造

AutoInit: 神经网络分析信号保持的权重初始化

本文介绍了一种自适应不同神经网络结构的权重初始化算法 AutoInit，该算法通过跟踪信号传播时的均值和方差，适当地调整每层的权重，从而避免信号爆炸或消失。实验证明，AutoInit 在各种激活函数、正则化、学习率和归一化设置下，都能提高卷积、残差和 Transformer 网络的性能，并比依赖数据的初始化方法更可靠。该算法的灵活性使其能够为各种规模的任务初始化模型，是神经架构搜索和激活函数发现等领域一种自动化配置工具，使新神经网络结构的设计更加鲁棒。AutoInit package 提供了一个 TensorFlow 的封装，可在此 URL 中获得。

Sep, 2021

GradMax：使用梯度信息生长神经网络

本文介绍了一种名为 GradMax 的技术，可以在训练期间添加新的神经元而不影响已经学到的东西，同时提高训练动态，并通过奇异值分解（SVD）高效地找到最佳初始化，从而实现了网络架构优化的目的。

Jan, 2022

从点到源：用生成模型初始化神经网络

我们介绍了两组新的初始化方法：第一组是通过应用变分自动编码器来局部初始化权重组，第二组是通过应用图形超网络来全局初始化完整的权重集合。我们通过在精度、收敛速度和集成方面对采用的生成模型对最先进的神经网络进行了彻底的评估。结果表明，全局初始化导致更高的准确性和更快的初始收敛速度，然而通过图形超网络实现的方式会降低对于超出分布数据的集成性能。为了弥补这个问题，我们提出了一种叫噪声图形超网络的修改方法，鼓励在生成的集成成员中产生多样性。此外，我们的方法可能能够将学到的知识传递给不同的图像分布。我们的工作提供了对于这些新的初始化方法的潜力、权衡和可能修改的见解。

Oct, 2023

卷积神经网络的数据相关初始化

该研究提出了一种快速、简单的数据依赖初始化过程，可避免幻灭或爆炸梯度，并能够与当前领先的无监督或自监督预训练方法相匹配，同时比前人的方法快大约三个数量级，当与预训练方法结合时，可以显著优于先前的工作，在监督和无监督预训练之间缩小差距。

Nov, 2015

图神经网络的初始化

对图神经网络 (GNN) 的初始化方法进行研究，提出了一种新的初始化方法 Virgo，通过考虑激活函数、隐藏维度、图结构和信息传递等因素，减少了方差不稳定性，提高了模型性能。

Dec, 2023

深度神经网络中使用正交初始化解决梯度不稳定性的生物合理性探究

本文提出了两种初始化方案，允许网络自然演化其权重形成正交矩阵，并提供理论分析，预先训练正交化始终收敛，并通过实验证实，所提出的方案优于随机初始化的递归和前向网络。

Oct, 2022

使用尺度不变架构强化神经网络训练

本文提出了通过修改网络结构，使其缩放不变，并使用 SGD 和权重衰减进行训练的通用方法，并证明了此方法不仅可以实现稳健的训练，还可以节省内存。作者还设计了一种名为 SIBERT 的缩放不变的 BERT 版本，其性能可与使用 Adam 等自适应方法训练的 BERT 相媲美。

Feb, 2022

有原则的考虑架构的超参数缩放

通过对神经网络架构的深入研究，在初始化和学习率方面提出了新的原则，并验证了其对网络性能的改进，从而为当前架构设计的基准测试提供了新的方法。

Feb, 2024

层并行深度神经网络训练的多层初始化

本论文研究了多级初始化策略，以及基于时间有限制微分方程与网络离散化的深九层前馈神经网络训练方法，结果表明这种方法有效降低了网络训练的时间和初始参数随机性敏感度，并提供了一种正则化效应。

Dec, 2019

利用方差迁移和学习速率自适应增量式生长神经网络加速训练

通过考虑参数化和优化策略对训练动态的影响，我们开发了一种高效增长神经网络的方法，该方法动态稳定权重、激活和梯度缩放，提出一种学习率适应机制来解决不平衡训练问题，并取得了与训练大型固定模型相当或更好的准确性和训练速度加快。

Jun, 2023