BriefGPT.xyz
Ask
alpha
关键词
overparametrized setting
搜索结果 - 1
通过几何调整的梯度下降在深度学习中实现全局 L2 最小化
考虑在深度学习网络中广泛使用的用于最小化 L^2 损失函数的梯度下降流,我们介绍了两个修改版本;一个适用于过参数化设置,另一个适用于欠参数化设置。两者均具有清晰且自然的不变几何意义,考虑到过参数化设置中的拉回向量丛结构和欠参数化设置中的推前
→
PDF
7 months ago
Prev
Next