Nov, 2023

欠参数化的学生网络应该复制还是平均教师权重?

TL;DR通过神经网络可以对任何连续函数进行无限接近的逼近,本文讨论了当函数本身是一个具有一层隐藏神经元和 k 个神经元的神经网络时,使用具有 n 个神经元的神经网络对 f * 进行逼近可以看作是将一个欠参数化的 “学生” 网络与一个具有 k 个神经元的 “教师” 网络进行拟合,提供了对传统激活函数的非平凡临界点的闭式解,并发现对于 erf 激活函数,梯度流要么收敛到最优的拷贝 - 平均临界点,要么收敛到每个学生神经元大致拷贝不同的教师神经元的另一个临界点,最后发现 ReLU 激活函数也有类似的结果,表明欠参数化网络的最优解具有普遍结构。