Jun, 2019

过度参数化模型中的核心和丰富区域

TL;DR研究发现神经网络在过参量化后,当行为符合核化线性预测器时,在梯度下降的训练下能找到最小 RKHS 范数解;与此不同的是,梯度下降在过参量化的多层网络上可能引入不是 RKHS 范数的丰富隐性偏差。本文基于 Chizat 和 Bach 的观察,展示了初始化规模是如何控制多层同质模型中的 “核”(也称惰性)和 “丰富”(也称活动)区域之间的转换并影响泛化属性的。我们对一个简单的两层模型进行了全面而详细的分析,已经展示了核与丰富区域之间有一个有趣和有意义的转换,并展示了矩阵分解模型和多层非线性网络的转换。