May, 2022

Batch Normalization 对损失函数的一阶和二阶导数视而不见

TL;DR本文证明 Batch Normalization 操作对于第一和第二导数的反向传播的影响,并发现了这种问题的原因是 BN 操作的标准化阶段,实验结果验证了理论结论,证明 BN 操作对于特定任务中的特征表示具有显著影响。