Feb, 2024

两次齐次神经网络中初始参数微小趋向与马鞍点的方向收敛

TL;DR本文研究了初始接近原点的两均勻神經網絡的梯度流動力學,對於方塊和邏輯損失,會有足夠長的時間在原點的附近,使神經網絡的權重大約收斂於量化神經網絡輸出和相應標籤在訓練數據集上相關性的 Karush-Kuhn-Tucker(KKT)點;方塊損失下神經網絡經常在接近原點的地方產生鞍點,本文在此基礎上展示了小幅度權重在某些鞍點附近的類似方向收斂。