BriefGPT.xyz
Ask
alpha
关键词
small initializations
搜索结果 - 2
深度均质神经网络的早期方向收敛及小初始化
该论文研究了使用小的初始值训练深层均匀神经网络时产生的梯度流动力学。该研究表明,在训练的早期阶段,神经网络的权重保持较小的范数,并且在神经关联函数的 Karush-Kuhn-Tucker (KKT) 点附近大致收敛于相同方向。此外,在平方损
→
PDF
4 months ago
两次齐次神经网络中初始参数微小趋向与马鞍点的方向收敛
本文研究了初始接近原点的两均勻神經網絡的梯度流動力學,對於方塊和邏輯損失,會有足夠長的時間在原點的附近,使神經網絡的權重大約收斂於量化神經網絡輸出和相應標籤在訓練數據集上相關性的 Karush-Kuhn-Tucker(KKT)點;方塊損失下
→
PDF
5 months ago
Prev
Next