May, 2022
Batch Normalization 对损失函数的一阶和二阶导数视而不见
Batch Normalization Is Blind to the First and Second Derivatives of the Loss
Zhanpeng Zhou, Wen Shen, Huixin Chen, Ling Tang, Quanshi Zhang
TL;DR本文证明 Batch Normalization 操作对于第一和第二导数的反向传播的影响,并发现了这种问题的原因是 BN 操作的标准化阶段,实验结果验证了理论结论,证明 BN 操作对于特定任务中的特征表示具有显著影响。