欠参数化的学生网络应该复制还是平均教师权重？

Nov, 2023

欠参数化的学生网络应该复制还是平均教师权重？

Should Under-parameterized Student Networks Copy or Average Teacher Weights?

Berfin Şimşek, Amire Bendjeddou, Wulfram Gerstner, Johanni Brea

TL;DR通过神经网络可以对任何连续函数进行无限接近的逼近，本文讨论了当函数本身是一个具有一层隐藏神经元和 k 个神经元的神经网络时，使用具有 n 个神经元的神经网络对 f * 进行逼近可以看作是将一个欠参数化的 “学生” 网络与一个具有 k 个神经元的 “教师” 网络进行拟合，提供了对传统激活函数的非平凡临界点的闭式解，并发现对于 erf 激活函数，梯度流要么收敛到最优的拷贝 - 平均临界点，要么收敛到每个学生神经元大致拷贝不同的教师神经元的另一个临界点，最后发现 ReLU 激活函数也有类似的结果，表明欠参数化网络的最优解具有普遍结构。

Abstract

Any continuous function $f^*$ can be approximated arbitrarily well by a neural network with sufficiently many neurons $k$. We consider the case when $f^*$ itself is a neural network with one hidden layer and $k$

neural network approximation teacher-student critical points activation function

发现论文，激发创造

关于学习超参数化神经网络的函数逼近视角

研究了使用梯度下降法在过度参数化的双层神经网络中训练，证明了在足够过度参数化的条件下，GD 方法可以近似地将振幅算子的幂应用于生成响应 / 标签的基础 / 目标函数 $f^*$，并且提供了使用低秩逼近来减少经验风险的线性速率的足够条件，介绍了适用于球面上的多项式的一般结果的应用

May, 2019

轻度超参数化双层神经网络的局部收敛理论

本文研究了过度参数化对于神经网络构建优化的成功至关重要的原因，并发现过度参数化下的神经网络具有非常稳定的收敛性质，其学生节点不断向教师节点收敛，并有一个漂亮的收敛速率定理，该速率与学生节点的数量无关。

Feb, 2021

基于学生 - 老师框架的随机特征模型的在线学习

研究了两层神经网络中过参数化对学生 - 教师框架的影响，发现只有当学生的隐藏层数量指数级大于输入维度时，才能达到完美的泛化。同时计算了其渐进的泛化误差。

Mar, 2023

使用过参数化的浅层 ReLU 神经网络进行非参数回归

对于从某些光滑函数类中学习函数的任务，如果权重限制或正则化得当，超参数化神经网络可以实现最小极值收敛率 (加上对数因子)。

Jun, 2023

浅层神经网络超参数化的监督学习基本极限

对使用两层神经网络进行信息理论分析的研究，研究了限制数据和模型的情况下神经网络的性能极限，结果表明这个性能极限取决于训练数据的数量、输入维度和隐藏单元的数量

Jul, 2023

两层神经网络的鲁棒性定律

研究显示神经网络的大小和唇氏常数之间存在固有的权衡，为保证唇氏恒定至少需要数据点数除以神经元个数的个数级别的神经元，过参数化（神经元数大于数据点数）是保证鲁棒性的必要条件，仅数据拟合仅需要 D 个数据点一个神经元。

Sep, 2020

教师 - 学生设置下的两层神经网络随机梯度下降动力学

在大规模数据训练下，研究了超参数化两层神经网络在教师 - 学生的设置下的动态和表现，证明了 SGD 的一组微分方程可以捕捉到动态，同时揭示了不同激活函数找到的解决方案的不同表现，并发现了对于神经网络的良好泛化，不仅取决于 SGD 的性质，还取决于算法，模型架构和数据集的相互作用。

Jun, 2019

单隐藏层神经网络梯度流性质与线性激活函数的研究

通过研究神经网络的超参数化和过拟合对梯度下降算法鲁棒性的影响，我们证明了过度参数化会引入伪平衡点，阻碍梯度下降算法的收敛。

May, 2023

浅层 ReLU 神经网络的过度参数化对优化空间的影响

本文研究了 ReLU 神经网络中的过度参数化对优化景观的影响，证明了当教师和学生网络拥有相同数量的神经元时，目标函数在全局最小值周围具有强凸性，但在任何超参数化量之后甚至没有局部凸性，而对于大多数方向来说保持一点强凸性，并在此属性之下展示优化保证。

Jun, 2020

神经网络中超参数化的强大作用与二次激活函数

本文研究了神经网络学习中超参数化的有效性，提出了一种使用局部搜索算法寻找全局最优解的方法，并使用 Rademacher 复杂性理论证明了在权重衰减的情况下，解决方案在数据采样自正态分布等正则分布的情况下也能很好地推广，同时还分析了具有二次激活函数和 n 个训练数据点的 k 个隐藏节点浅层网络的本质性质。

Mar, 2018