Feb, 2024

神经网络初始化中的金发女郎区域解构

TL;DR这篇论文通过对深度学习模型的优化动力学进行全面分析,探讨了训练损失的二阶性质对模型的影响,特别关注了与高度可训练的初始点相关联的 “Goldilocks zone” 概念,提出了正曲率对深度网络的可训练性的重要性,并讨论了与模型自信度、初始损失和消失的交叉熵损失梯度等方面的关联。