Feb, 2024

剖析残差学习的内幕

TL;DR通过发现神经网络中的 “消散输入” 现象,我们揭示了残差学习背后的基本原理,从而解决了深度可扩展的普通神经网络训练中收敛失败的挑战,并提出了 “普通神经网络假设”(PNNH)来支持无残差连接的深度普通神经网络训练,通过在流行的视觉基准测试中对 PNNH 启用的 CNN 架构和 Transformers 进行全面评估,并展示了与 ResNets 和视觉 Transformers 相比的相当准确性、高达 0.3% 更高的训练吞吐量和 2 倍更好的参数效率。