BriefGPT.xyz
大模型
Ask
alpha
关键词
gradient starvation
搜索结果 - 2
梯度饱和:神经网络的学习偏好
本文探讨超参数神经网络学习中的梯度下降现象,发现其在最小化交叉熵损失时可能只捕获部分特征,而导致特征的不平衡。作者提出了一种理论解释,并使用动力系统理论中的工具来证明给定训练数据的某些统计结构时可以预期这种情况。此外,作者还提出了一种新的正
→
PDF
4 years ago
深度神经网络的学习动态
研究深度神经网络的学习动态,主要关注于二元分类问题。我们证明了网络学习的各种性质,并且在非线性架构下,分类误差也呈现出 sigmoid 形状,证实了经验观察。我们指出了梯度饱和现象和特征频率对模型收敛速度的影响,并探讨了交叉熵和 hinge
→
PDF
6 years ago
Prev
Next