Jul, 2023

两层 ReLU 网络中早期神经元对齐与小初始化

TL;DR利用小初始化进行梯度流训练的研究,研究了两层 ReLU 网络在二元分类问题中的训练。首层神经元在早期对齐阶段尝试与正或负数据对齐,其方向动态分析得出了神经元达到良好对齐所需的时间上界。在对齐阶段后,损失函数以 1/t 速率收敛到零,首层权重矩阵近似低秩。通过对 MNIST 数据集进行实验验证了理论发现。