Nov, 2024
深度可逆架构中的精确可处理高斯-牛顿优化揭示差的泛化能力
Exact, Tractable Gauss-Newton Optimization in Deep Reversible
Architectures Reveal Poor Generalization
TL;DR本研究解决了二阶优化在深度学习中的泛化能力尚无定论的问题。我们提出了一种新方法,通过在深度可逆架构中使用精确的高斯-牛顿更新,首次证明了其在常见基准数据集上的效果并不理想。结果表明,这种方法在训练损失上进展迅速,但存在过拟合现象,未能有效支持对其他小批量的泛化。