Dec, 2023

在脱轨损失及其之外的动力学下

TL;DR最近的研究重点研究了深度学习中的隐性偏差,特别是最后一层特征和分类器权重的行为。本文引入了简明的无约束损失函数,提供了更多数学机会来分析封闭动态,同时尽可能少地进行简化或假设。无约束损失允许考虑更多实际技术,如变化的学习率和特征归一化。通过将最后一层特征视为自由优化变量的层剥模型,我们在无约束、正则化、球面约束和神经切向核保持不变的情况下进行了彻底分析。我们研究了将无约束损失与交叉熵(CE)的性能联系起来的情况,其中分类器权重采用特定结构(如简单赫尔曼紧束框架)进行固定。我们的分析表明,这些动态按指数速度收敛到解,这取决于特征和分类器权重的初始化。这些理论结果不仅提供了有价值的见解,包括显式特征正则化和调整学习率以增强无约束损失实际训练的可行性,还将其适用性扩展到其他损失函数。最后,我们通过大量实验证明了这些理论结果和见解。