关键词gradient flow trajectories
搜索结果 - 2
- 噪声误导稀疏目标上的旋转不变算法
添加噪音后,旋转不变算法在观察到 d 个或更多实例之后仍然是次优的;我们通过对旋转对称问题的贝叶斯最优算法的一个下界证明了这一点,并对简单的非旋转不变算法在同一问题中进行了更低的上界证明;最后,我们分析了一些简单情况下许多标准优化算法的梯度 - 深度线性分类中的隐式偏见:初始化规模与训练准确性
研究了在 “对角线线性网络” 上最小化指数损失的梯度流轨迹及其隐式优化偏差的详细渐近研究,揭示了 “核” 与非 “核”(“丰富” 或 “活跃”)状态之间的转换如何受初始缩放和最小化训练损失的精度之间的关系控制,结果表明,梯度下降的某些极限行