关于学习 ReLU 及高斯边缘的时间 / 准确性权衡
本文提出一种基于分布函数采样数据的 ReLU 回归算法并给出了第一个可行的常数近似算法,同时该算法适用于所有对数凸分布。通过更加复杂的技术,我们还能够获得任何次高斯分布的多项式时间逼近方案。
May, 2020
本文提出了一种新的随机梯度下降算法,利用随机噪声扰动,无需任何假设于数据分布、网络大小和训练集大小,就能够证明地达到单隐藏层 ReLU 网络的全局最优性,同时提出了一些一般的泛化保证,此外,数值测试结果也验证了算法和理论的实用性。
Aug, 2018
本研究提出了有效学习基于 ReLU 的常深度网络的算法,该算法运用了核方法、多项式逼近和凸优化的 “双损失” 方法,同时获得了解决 “凸分段线性拟合” 和 “在单位球上低权重多项式的噪音重构” 等其他应用。
Nov, 2016
本文研究了采用权重衰减正则化的两层 ReLU 网络与其凸松弛之间的最优性差距,揭示了在随机训练数据情况下原问题与其松弛之间相对最优性差距可以通过 O (√log n) 的因子进行界定,且应用简单的算法可在多项式时间内解决原非凸问题,此外,在合理假设下,随机初始化参数的局部梯度方法几乎必定收敛于训练损失较低点,此结果相对现有结果而言具有指数级改进,并对解释局部梯度方法为何行之有效提供了新的见解。
Feb, 2024
本文中,我们在非线性神经网络学习问题上,通过精确量化每个训练算法所需的最小训练样本数量,以保证目标类中包含或由预定义结构的 ReLU 神经网络的高精度,从而证明了在非常一般的假设下,训练样本的最小数量随着网络结构的深度和输入维度呈指数级增长。
May, 2022
本文研究从标准高斯分布采样输入,从嘈杂的教师网络生成输出的一层隐藏神经网络的学习问题。研究分析了梯度下降在基于经验风险最小化的训练中的性能,并提供了算法相关的保证,证明了张量初始化后跟随梯度下降可以以线性速率收敛到地面真值参数,证明本文是第一个表征实际学习具有多个神经元的一层 ReLU 网络的恢复保证的工作。数值实验验证了我们的理论发现。
Jun, 2018
本研究旨在研究使用标准高斯分布下的 ReLU 激活函数的线性组合进行 PAC 学习的问题,并提出了一种具有高效样本和计算复杂度的算法,其复杂度接近于相关统计查询算法类中的最优复杂度。该算法使用张量分解识别出一个子空间,使其在正交方向上的所有 O (k) 阶矩都很小,并利用 Schur 多项式理论证明了当较低阶矩均很小时,较高阶矩误差张量也很小。
Jul, 2023
我们研究了具有噪声标签的一元非参数回归问题中两层 ReLU 神经网络的泛化。我们提出了一种新的局部极小值泛化理论,证明了梯度下降算法在常数学习率下能稳定收敛至该极小值。我们证明了在合理的假设下,梯度下降算法可以找到表示平滑函数的局部极小值,并给出了均方误差的近乎最优上界。我们的理论结果通过大量模拟验证,表明大学习率训练可以得到稀疏线性样条拟合。我们是第一个在非插值情况下通过极小值稳定性获得泛化界限的研究,并且证明了没有正则化的 ReLU 神经网络可以在非参数回归中实现接近最优的速率。
Jun, 2024