本文研究了神经网络学习中超参数化的有效性,提出了一种使用局部搜索算法寻找全局最优解的方法,并使用 Rademacher 复杂性理论证明了在权重衰减的情况下,解决方案在数据采样自正态分布等正则分布的情况下也能很好地推广,同时还分析了具有二次激活函数和 n 个训练数据点的 k 个隐藏节点浅层网络的本质性质。
Mar, 2018
本文采用 Polyak-Lojasiewicz 条件和随机矩阵理论,提供了一个分析框架,允许我们在基本浅层神经网络中同时训练所有层并达到网络宽度的理想亚二次标度。
Nov, 2021
本文研究了正定矩阵和一层神经网络的学习问题,通过梯度下降算法和二次激活函数的方式来实现隐式正则化,提出利用 UU 转置参数化正定矩阵并最小化平方损失函数的方法来恢复正定矩阵,并且证明在初始值的基础上,梯度下降算法大约在 O (sqrt (r)) 步长内能复原正定矩阵。
Dec, 2017
本文基于平方和方法给出了用于张量分解的新算法,结果改进了多个问题的运行时间,包括对超完备三元组分解和具有常数相对稀疏度的超完备字典的学习等问题的算法,同时首次在平滑分析模型中给出了超完备四元组分解的稳健性分析。而此分析的关键因素在于在由平方和松弛解导出的矩阵时刻中建立小的谱间隙,为了使此分析成为可能,本文将最大熵约束的谱同构加到平方和松弛约束上。
Oct, 2016
对使用两层神经网络进行信息理论分析的研究,研究了限制数据和模型的情况下神经网络的性能极限,结果表明这个性能极限取决于训练数据的数量、输入维度和隐藏单元的数量
Jul, 2023
本文提出了一种降低神经网络训练成本的框架,其中使用各种技术,包括基于 ReLU 的稀疏化器、低秩数据结构、矩形矩阵乘法、张量草图技术和预处理,实现每次迭代的真正次二次成本。
Dec, 2021
量子神经网络中的超参数化现象会影响其参数数量与损失函数空间的精细度,我们证明了由 QNN 的生成器获取的李代数维度是超参数化的界限,当 M≥M_c 时,QNN 的训练效果大大提高,相关结果也适用于变分量子算法和量子优化控制。
Sep, 2021
研究了使用梯度下降法在过度参数化的双层神经网络中训练,证明了在足够过度参数化的条件下,GD 方法可以近似地将振幅算子的幂应用于生成响应 / 标签的基础 / 目标函数 $f^*$,并且提供了使用低秩逼近来减少经验风险的线性速率的足够条件,介绍了适用于球面上的多项式的一般结果的应用
May, 2019
本研究提出了基于单元能力的复杂度度量,为两层 ReLU 网络提供了更紧密的泛化界限,这可能有助于解释神经网络过参数化的泛化改进现象。同时,我们还提出了一个匹配的 Rademacher 复杂性下限,该下限优于之前神经网络的容量下限。
May, 2018
研究浅层神经网络在过参数化情况下,如何使用二次激活函数进行训练并找到全局最优解,结果表明此方法适用于具有任意输入 / 输出对的任何训练数据,并可使用各种本地搜索启发式方法高效地找到全局最优解。同时,对於差分激活函数,我们也证明了梯度下降法在得到合适的初值后可以以线性速度收敛到全局最优解,它的输入来自符合高斯分布的选定属性且标记是通过种植的重量系数生成的。
Jul, 2017