两层网络训练中的早期对齐是双刃剑

Jan, 2024

两层网络训练中的早期对齐是双刃剑

Early alignment in two-layer networks training is a two-edged sword

Etienne Boursier, Nicolas Flammarion

TL;DR使用一阶优化方法训练神经网络是深度学习实验成功的核心。在小的初始化下，训练动力学的早期阶段会导致神经元朝关键方向对齐，从而引发网络的稀疏表示，这与渐近梯度流的隐式偏差相关。然而，这种稀疏诱导的对齐会导致在最小化训练目标上面临困难，我们还提供了一个简单的数据示例，说明过度参数化的网络无法收敛到全局极小值点，而只能收敛到一个虚假的稳定点。

Abstract

Training neural networks with first order optimisation methods is at the core of the empirical success of deep learning. The scale of initialisat

neural networks optimisation methods initialisation alignment sparsity

发现论文，激发创造

两层 ReLU 网络中早期神经元对齐与小初始化

利用小初始化进行梯度流训练的研究，研究了两层 ReLU 网络在二元分类问题中的训练。首层神经元在早期对齐阶段尝试与正或负数据对齐，其方向动态分析得出了神经元达到良好对齐所需的时间上界。在对齐阶段后，损失函数以 1/t 速率收敛到零，首层权重矩阵近似低秩。通过对 MNIST 数据集进行实验验证了理论发现。

Jul, 2023

神经网络训练的早期阶段

本文研究神经网络学习的早期阶段，分析了神经网络在此期间的变化，发现深度网络在使用随机权重重初始化时不具有稳健性，但利用模糊输入或辅助自监督任务进行预训练即可近似监督网络的变化。

Feb, 2020

深度均质神经网络的早期方向收敛及小初始化

该论文研究了使用小的初始值训练深层均匀神经网络时产生的梯度流动力学。该研究表明，在训练的早期阶段，神经网络的权重保持较小的范数，并且在神经关联函数的 Karush-Kuhn-Tucker (KKT) 点附近大致收敛于相同方向。此外，在平方损失和神经网络权重的可分离性假设下，梯度流动力学在损失函数的某些鞍点附近也显示出类似的方向收敛。

Mar, 2024

神经网络作为核学习器：沉默对齐效应

本文探讨了神经网络在富特征学习阶段是否能够通过数据相关的核来学习一个核机器问题，发现这可以通过一种我们称之为 ' 静默对齐（silent alignment）' 的现象来实现，该现象要求网络的切向核在小范围内而且损失函数减少之前已经在特征上对齐，然后在总体规模上才能增长，总体而言，我们的研究表明以这种方式训练的神经网络会先学习一个低秩贡献的核，然后再总体上演化，从而得到了一个与其相当的核回归解决方案。

Oct, 2021

训练不变量和低秩现象：超越线性网络

本论文研究神经网络训练中的隐性偏差，探究梯度流和梯度下降的极限情况下，使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中，提出了一些训练不变性，并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。

Jan, 2022

通过训练表示对齐学习紧凑特征

本研究提出了一种名为 In-Training Representation Alignment (ITRA) 的方法，通过匹配损失函数，显式地对两个不同 mini-batch 的 feature distribution 进行校准，从而稳定随机梯度下降（SGD）中高方差的情况，并提出了其对特征表示学习的良好效果的分析，大规模实验表明该方法在图像和文本分类方面优于传统方法。

Nov, 2022

深度神经网络优化轨迹上的盈亏平衡点

本文探讨了随机梯度下降在神经网络早期训练阶段中的超参数，指出通过在初期采用大学习率可以减小梯度的方差和提高梯度的协方差矩阵的条件数，在超过 “盈亏平衡点” 之后，通过随机梯度下降法优化可以隐式地正则化损失曲面的曲率以及梯度中的噪声等问题，这对于神经网络的优化效果具有积极作用，研究这些影响对于泛化性能的影响是一个有前途的研究方向。

Feb, 2020

利用反向对齐特征更新引导深度特征学习

通过研究深度学习和超参数对特征学习的影响，本文提出了特征更新与反向传播之间的对齐概念，并研究了随机初始化下的对齐、ReLU MLPs 和 ResNets 的特性。

Nov, 2023

直接反馈对齐提供深度神经网络的学习

使用反馈定向方法进行神经网络训练的简单方法能够在卷积网络和深度网络中实现零训练误差，而不需要成对的权重，是迈向生物可行机器学习的一步。

Sep, 2016

三层神经网络动力学：初始凝聚

通过理论分析，我们揭示了三层神经网络训练中凝聚现象的机制，并从二层神经网络训练中进行了区分。我们还建立了有效动力学的爆炸特性，并给出了凝聚现象发生的充分条件，并通过实验证实了这些发现。此外，我们探索了凝聚与深度矩阵分解中观察到的低秩偏差之间的关联。

Feb, 2024