关于学习 ReLU 及高斯边缘的时间 / 准确性权衡

Nov, 2019

关于学习 ReLU 及高斯边缘的时间 / 准确性权衡

Time/Accuracy Tradeoffs for Learning a ReLU with respect to Gaussian Marginals

Surbhi Goel, Sushrut Karmalkar, Adam Klivans

TL;DR本文探讨如何在高斯分布下计算最适合的 ReLU 模型，证明了学习受高斯边缘影响下的 ReLU 模型的难点，并提出了一种利用噪声半空间学习算法的近似最优解法。

Abstract

We consider the problem of computing the best-fitting relu with respect to square-loss on a training set when the examples have been drawn according to a spherical →

relu square-loss gaussian distribution gradient descent halfspace learning

发现论文，激发创造

高斯边缘下分别学习半空间和 ReLU 的近最优 SQ 下界

该论文研究了在高斯边际下以不可知方式学习半空间和 ReLU 的基本问题，证明了这些问题的统计查询下限。

Jun, 2020

基于 ReLU 的回归近似方案

本文提出一种基于分布函数采样数据的 ReLU 回归算法并给出了第一个可行的常数近似算法，同时该算法适用于所有对数凸分布。通过更加复杂的技术，我们还能够获得任何次高斯分布的多项式时间逼近方案。

May, 2020

线性可分数据上的 ReLU 网络学习：算法，最优性和泛化

本文提出了一种新的随机梯度下降算法，利用随机噪声扰动，无需任何假设于数据分布、网络大小和训练集大小，就能够证明地达到单隐藏层 ReLU 网络的全局最优性，同时提出了一些一般的泛化保证，此外，数值测试结果也验证了算法和理论的实用性。

Aug, 2018

在多项式时间内可靠地学习 ReLU

本研究提出了有效学习基于 ReLU 的常深度网络的算法，该算法运用了核方法、多项式逼近和凸优化的 “双损失” 方法，同时获得了解决 “凸分段线性拟合” 和 “在单位球上低权重多项式的噪音重构” 等其他应用。

Nov, 2016

ReLU 神经网络的凸松弛在多项式时间内近似全局最优

本文研究了采用权重衰减正则化的两层 ReLU 网络与其凸松弛之间的最优性差距，揭示了在随机训练数据情况下原问题与其松弛之间相对最优性差距可以通过 O (√log n) 的因子进行界定，且应用简单的算法可在多项式时间内解决原非凸问题，此外，在合理假设下，随机初始化参数的局部梯度方法几乎必定收敛于训练损失较低点，此结果相对现有结果而言具有指数级改进，并对解释局部梯度方法为何行之有效提供了新的见解。

Feb, 2024

学习 ReLU 网络以高均匀精度是不可解的

本文中，我们在非线性神经网络学习问题上，通过精确量化每个训练算法所需的最小训练样本数量，以保证目标类中包含或由预定义结构的 ReLU 神经网络的高精度，从而证明了在非常一般的假设下，训练样本的最小数量随着网络结构的深度和输入维度呈指数级增长。

May, 2022

通过梯度下降学习具有一层 ReLU 的神经网络

本文研究从标准高斯分布采样输入，从嘈杂的教师网络生成输出的一层隐藏神经网络的学习问题。研究分析了梯度下降在基于经验风险最小化的训练中的性能，并提供了算法相关的保证，证明了张量初始化后跟随梯度下降可以以线性速率收敛到地面真值参数，证明本文是第一个表征实际学习具有多个神经元的一层 ReLU 网络的恢复保证的工作。数值实验验证了我们的理论发现。

Jun, 2018

通过舒尔多项式高效学习一层 ReLU 网络

本研究旨在研究使用标准高斯分布下的 ReLU 激活函数的线性组合进行 PAC 学习的问题，并提出了一种具有高效样本和计算复杂度的算法，其复杂度接近于相关统计查询算法类中的最优复杂度。该算法使用张量分解识别出一个子空间，使其在正交方向上的所有 O (k) 阶矩都很小，并利用 Schur 多项式理论证明了当较低阶矩均很小时，较高阶矩误差张量也很小。

Jul, 2023

使用深度 ReLU 网络进行成对学习的最优估计

本文研究深度 ReLU 网络下的成对学习，估计其多余泛化误差。通过成对最小二乘损失函数，取得近乎最优的估计上界。

May, 2023

单变量 ReLU 网络中稳定的极小值无法过拟合：大步长的泛化

我们研究了具有噪声标签的一元非参数回归问题中两层 ReLU 神经网络的泛化。我们提出了一种新的局部极小值泛化理论，证明了梯度下降算法在常数学习率下能稳定收敛至该极小值。我们证明了在合理的假设下，梯度下降算法可以找到表示平滑函数的局部极小值，并给出了均方误差的近乎最优上界。我们的理论结果通过大量模拟验证，表明大学习率训练可以得到稀疏线性样条拟合。我们是第一个在非插值情况下通过极小值稳定性获得泛化界限的研究，并且证明了没有正则化的 ReLU 神经网络可以在非参数回归中实现接近最优的速率。

Jun, 2024