通过梯度下降学习 ReLU

May, 2017

Learning ReLUs via Gradient Descent

Mahdi Soltanolkotabi

TL;DR本文研究学习呈现形式为 $max (0,<w,x>)$ 的修正线性单元（ReLUs）的问题，聚焦于高维场景下，权重向量的维数大于样本数的情形，针对实现可能性模型，展示了投影梯度下降算法在 0 处初始化的线性收敛率，这一结果对于深度架构的动态具有一定的参考价值。

Abstract

In this paper we study the problem of learning rectified linear units (ReLUs) which are functions of the form $max(0,)$ with $w$ denoting the weight vector. We study this problem in the high-dimensional regime

rectified linear units high-dimensional regime realizable model projected gradient descent neural nets

发现论文，激发创造

通过梯度下降学习具有一层 ReLU 的神经网络

本文研究从标准高斯分布采样输入，从嘈杂的教师网络生成输出的一层隐藏神经网络的学习问题。研究分析了梯度下降在基于经验风险最小化的训练中的性能，并提供了算法相关的保证，证明了张量初始化后跟随梯度下降可以以线性速率收敛到地面真值参数，证明本文是第一个表征实际学习具有多个神经元的一层 ReLU 网络的恢复保证的工作。数值实验验证了我们的理论发现。

Jun, 2018

在多项式时间内可靠地学习 ReLU

本研究提出了有效学习基于 ReLU 的常深度网络的算法，该算法运用了核方法、多项式逼近和凸优化的 “双损失” 方法，同时获得了解决 “凸分段线性拟合” 和 “在单位球上低权重多项式的噪音重构” 等其他应用。

Nov, 2016

随机梯度下降优化超参数化的深度 ReLU 网络

研究如何使用 ReLU 激活函数、梯度下降和随机梯度下降来训练深度神经网络，证明在一定条件下，充分的随机权重初始化能够让这些方法在超参数化的深层 ReLU 网络上达到全局最小值。

Nov, 2018

线性可分数据上的 ReLU 网络学习：算法，最优性和泛化

本文提出了一种新的随机梯度下降算法，利用随机噪声扰动，无需任何假设于数据分布、网络大小和训练集大小，就能够证明地达到单隐藏层 ReLU 网络的全局最优性，同时提出了一些一般的泛化保证，此外，数值测试结果也验证了算法和理论的实用性。

Aug, 2018

学习窄的一层 ReLU 网络

我们提出了一个基于随机高阶矩张量收缩的多尺度算法，用于发现个别神经元。在学习由 $k$ 个 ReLU 激活的线性组合方面，该算法是首个在多项式时间内成功的，而且无需额外假设网络的正系数或隐藏权重向量的矩阵具有良好的条件数。

Apr, 2023

卷积滤波器何时易于学习？

通过随机梯度下降算法和 ReLU 激活函数，我们分析了卷积滤波器的收敛性。我们的研究不依赖于任何特定形式的输入分布，证明了基于梯度的算法在多项式时间内可以学习卷积滤波器，且收敛速度取决于输入分布的平滑度和卷积核的密度。此理论证明了深度神经网络中的两阶段学习率策略并提出了卷积滤波器的新的较弱恢复保证。

Sep, 2017

梯度下降量化 ReLU 网络特征

研究深度神经网络在过度参数化的情况下训练的现象，发现在网络具有小初值和学习率的假设下，权重向量趋向于集中在少量由数据决定的方向，这使得对于给定的输入数据，网络大小独立，只能得到有限数量的函数

Mar, 2018

关于学习 ReLU 及高斯边缘的时间 / 准确性权衡

本文探讨如何在高斯分布下计算最适合的 ReLU 模型，证明了学习受高斯边缘影响下的 ReLU 模型的难点，并提出了一种利用噪声半空间学习算法的近似最优解法。

Nov, 2019

ReLU 神经网络的凸松弛在多项式时间内近似全局最优

本文研究了采用权重衰减正则化的两层 ReLU 网络与其凸松弛之间的最优性差距，揭示了在随机训练数据情况下原问题与其松弛之间相对最优性差距可以通过 O (√log n) 的因子进行界定，且应用简单的算法可在多项式时间内解决原非凸问题，此外，在合理假设下，随机初始化参数的局部梯度方法几乎必定收敛于训练损失较低点，此结果相对现有结果而言具有指数级改进，并对解释局部梯度方法为何行之有效提供了新的见解。

Feb, 2024

梯度下降证明过参数化神经网络的最优化

本文研究表明，在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解，其分析依赖于神经网络的超参数和随机初始化方式，这些经验也可能有助于分析深度网络等其他一阶方法。

Oct, 2018