研究深度神经网络的学习动态,主要关注于二元分类问题。我们证明了网络学习的各种性质,并且在非线性架构下,分类误差也呈现出 sigmoid 形状,证实了经验观察。我们指出了梯度饱和现象和特征频率对模型收敛速度的影响,并探讨了交叉熵和 hinge 损失对生成对抗网络训练的差异。最后,我们提出了梯度饥饿现象并进行了研究。
深度学习模型的发展速度、数据量和模型规模的增加会导致其展示出解决新问题的突然能力,这被称为发生现象。本文提出了一个基于技能的框架,其中每一项新能力都被表示为基函数。我们在这个技能基上解决了一个简单的多线性模型,并得到了与培训时间、数据量、模型规模和最佳计算(C)有关的新能力的出现以及丢失的尺度规律的解析表达式。我们将详细的计算结果与在多任务稀疏奇偶性训练数据上训练的两层神经网络的直接模拟进行了比较,其中数据集的任务分布符合幂律分布。我们的简单模型使用了单一的拟合参数,能够捕捉到神经网络中随着训练时间、数据量或模型规模增加而出现的多个新技能的 S 型发生现象。