BN 与 ReLU 之间的不协调导致梯度爆炸，但被激活之间的相关性所抵消

Apr, 2023

BN 与 ReLU 之间的不协调导致梯度爆炸，但被激活之间的相关性所抵消

The Disharmony Between BN and ReLU Causes Gradient Explosion, but is Offset by the Correlation Between Activations

Inyoung Paik, Jaesik Choi

TL;DR讲述了基于批归一化和 ReLU 的深度神经网络存在于训练早期不稳定的情况，提出了更好的适应性学习率算法来替代现有的学习率缩放方法，该算法在大批量训练中表现优于现有方法。

Abstract

deep neural networks based on batch normalization and ReLU-like activation functions can experience instability during the early stages of training due to the high gradient induced by temporal →

deep neural networks batch normalization relu activation gradient explosion learning rate algorithm

发现论文，激发创造

有效学习率的扩展：早期训练中批量归一化的风险

本文研究了深度规范化 ReLU 网络的早期训练阶段，并通过研究有效学习率（LR）来解释梯度流的影响，发现使用大 LR 类似于对非线性 ODE 应用显式求解器，在第一步后导致底层出现过振荡和梯度消失，因此在深度，LR 和动量（可选）上需要进行精细调整，以保持总体平衡。

Jun, 2023

对近似正交数据的两层 ReLU 和 Leaky ReLU 网络的梯度下降的隐式偏差

針對兩層完全連接的 (leaky) ReLU 神經網絡，研究梯度下降的隱含偏差，並證明梯度下降在訓練中會找到收斂於 1 的具有穩定排名的神經網絡，對於 ReLU 激活函數則收斂於一個上界常數，同時所有訓練數據點的標準化邊界漸進地相同。實驗結果對我們的理論結果進行了驗證。

Oct, 2023

如何开始训练：初始化和架构的影响

本文针对深度 ReLU 神经网络早期训练的两种常见失效模式进行研究和识别，为每种模式提供了严格的证明以及如何避免。我们证明了正确的权重初始化以及架构可以使得深层神经网络成功训练，并在实验中证实了我们的理论结果的有效性。

Mar, 2018

理解 ReLU 网络的多阶段优化动态和丰富非线性行为

本研究通过对 ReLU 神经网络的训练过程进行理论性分析，揭示了从随机初始化到最终收敛的整个优化过程，并发现了四个不同阶段，显示了一个从简单到复杂的总体趋势，此外还可以精确地识别和捕捉特定的非线性行为，如初始凝结、鞍点到高原动态、平台逃逸、激活模式的变化、学习随着复杂度的增加等现象。

May, 2023

梯度爆炸问题探究 —— 定义、普遍性、影响、来源、权衡和解决方案

该研究指出在大多数 MLP 体系结构中，梯度消失问题仍然存在，而 ResNets 拥有较低的梯度并且可以绕过梯度消失现象，使得更深层的神经网络可以有效地训练，这是因为引入跳过连接会简化网络数学模型，可能是其成功的主要原因。

Dec, 2017

趋向无深度限制的训练：无梯度爆炸的批归一化

在这项研究中，我们设计了一种带有线性激活函数和批归一化的多层感知机模型，通过 Weingarten 微积分方法从理论上证明了其正向信号传播特性的精确表征，并证明了在线性独立的输入样本情况下渐近地保持梯度有界的特性。同时，我们还提出了一种激活函数塑形方案，能够在某些非线性激活函数下实现类似的特性。

Oct, 2023

ReLU 网络中批归一化的解析：等价的凸优化模型与隐式正则化

本文通过凸优化的视角分析 Batch Normalization，提出了一个基于凸对偶的解析框架，可以精确地描述用 Batch Normalization 训练的带有权重衰减的 ReLU 网络，并证明在高维和过参数化情况下，理论上可以获得一些简单的解析的最优层权重和可训练的凸约束优化问题，并发现梯度下降给标准的非凸 BN 网络提供了算法偏差效应，通过我们的方法可以将这种隐式正则化显性编码到凸目标中，实验结果表明该方法可以模拟和显著提高标准 BN 网络的性能。

Mar, 2021

通过方差漂移理解 Dropout 和 Batch Normalization 之间的不协调性

本文通过理论和统计分析探讨了为何结合 Dropout 和 Batch Normalization 会导致神经网络预测准确率下降的问题，发现该组合会引起特定神经元的方差转移并导致预测不稳定，提出了一些修改 Dropout 的策略来避免方差转移的风险。

Jan, 2018

通过梯度下降学习具有一层 ReLU 的神经网络

本文研究从标准高斯分布采样输入，从嘈杂的教师网络生成输出的一层隐藏神经网络的学习问题。研究分析了梯度下降在基于经验风险最小化的训练中的性能，并提供了算法相关的保证，证明了张量初始化后跟随梯度下降可以以线性速率收敛到地面真值参数，证明本文是第一个表征实际学习具有多个神经元的一层 ReLU 网络的恢复保证的工作。数值实验验证了我们的理论发现。

Jun, 2018

批量归一化导致对抗性攻击性漏洞

研究表明，批量标准化在深度神经网络的训练中可以降低参数更新次数，但会导致对小型对抗性输入扰动和噪音的鲁棒性降低，同时使用权重衰减可以消除其对输入尺寸的影响。

May, 2019