关键词diagonal linear networks
搜索结果 - 2
- ICML探索锐度感知最小化理解
Sharpness-Aware Minimization (SAM) relies on worst-case weight perturbations to improve generalization; we provide a mor - 深度线性分类中的隐式偏见:初始化规模与训练准确性
研究了在 “对角线线性网络” 上最小化指数损失的梯度流轨迹及其隐式优化偏差的详细渐近研究,揭示了 “核” 与非 “核”(“丰富” 或 “活跃”)状态之间的转换如何受初始缩放和最小化训练损失的精度之间的关系控制,结果表明,梯度下降的某些极限行