Jul, 2020

深度线性分类中的隐式偏见:初始化规模与训练准确性

TL;DR研究了在 “对角线线性网络” 上最小化指数损失的梯度流轨迹及其隐式优化偏差的详细渐近研究,揭示了 “核” 与非 “核”(“丰富” 或 “活跃”)状态之间的转换如何受初始缩放和最小化训练损失的精度之间的关系控制,结果表明,梯度下降的某些极限行为仅在荒谬的训练精度(远远低于 $10^{-100}$)时才能发挥作用。此外,在合理的初始化尺度和训练精度下,隐式偏差更为复杂,超出了这些极限的范畴。