线性可分数据上的ReLU网络学习：算法，最优性和泛化

Aug, 2018

线性可分数据上的ReLU网络学习：算法，最优性和泛化

Learning ReLU Networks on Linearly Separable Data: Algorithm, Optimality, and Generalization

Gang Wang, Georgios B. Giannakis, Jie Chen

TL;DR本文提出了一种新的随机梯度下降算法，利用随机噪声扰动，无需任何假设于数据分布、网络大小和训练集大小，就能够证明地达到单隐藏层ReLU网络的全局最优性，同时提出了一些一般的泛化保证，此外，数值测试结果也验证了算法和理论的实用性。

Abstract

Neural networks with ReLU activations have achieved great empirical success in various domains. However, existing results for learning relu networks either pose assumptions on the underlying data distribution being e.g. Gaussian, or require the network size and/or training size to be s

发现论文，激发创造

通过梯度下降学习具有一层ReLU的神经网络

本文研究从标准高斯分布采样输入，从嘈杂的教师网络生成输出的一层隐藏神经网络的学习问题。研究分析了梯度下降在基于经验风险最小化的训练中的性能，并提供了算法相关的保证，证明了张量初始化后跟随梯度下降可以以线性速率收敛到地面真值参数，证明本文是第一个表征实际学习具有多个神经元的一层ReLU网络的恢复保证的工作。数值实验验证了我们的理论发现。

Jun, 2018

随机梯度下降优化超参数化的深度ReLU网络

研究如何使用ReLU激活函数、梯度下降和随机梯度下降来训练深度神经网络，证明在一定条件下，充分的随机权重初始化能够让这些方法在超参数化的深层ReLU网络上达到全局最小值。

Nov, 2018

关于均场极限下两层ReLU网络梯度下降训练的收敛性

在均场模型下，用梯度下降训练双层ReLU网络时，我们描述了最小贝叶斯风险收敛的必要和充分条件。该条件不依赖于参数的初始化，只涉及神经网络实现的弱收敛，而不是其参数分布。

May, 2020

由数据维度参数化的ReLU网络训练的计算复杂度

本文研究了使用修正线性单元（ReLU）训练简单神经网络的计算复杂度，并分析了训练数据维数对计算复杂度的影响。我们提供了参数化复杂度的结果，并且针对各种损失函数分析了两层ReLU网络的训练问题。

May, 2021

通过凸优化实现两层之外深度ReLU网络的全局最优

本研究通过凸优化理论分析发现，ReLU神经网络通过一种隐含的正则化机制实现高维特征选择，并证明了该等价凸问题可以通过标准凸优化求解器在多项式时间内全局优化。

Oct, 2021

两层ReLU网络的快速凸优化：等价模型类和锥分解

本文研究了基于ReLU激活函数的两层神经网络的凸优化及其群lasso正则化和加速近端梯度算法，该方法在MNIST和CIFAR-10数据集的图像分类方面表现良好。

Feb, 2022

解析训练二层ReLU网络

本文研究两层神经网络的ReLU激活函数和平方损失函数的优化方法，利用一种交替迭代算法寻找损失函数的关键点，实验结果显示该算法能够比随机梯度下降和Adam优化器更快、更准确地求解深度值，并且该方法没有调参困扰。

Apr, 2023

使用铰链损失函数训练浅层ReLU网络的噪声数据：过拟合何时发生且是否良性？

本文探讨了使用梯度下降和hinge loss在嘈杂数据上训练的两层ReLU网络的良性过拟合问题，研究了线性可分数据，给出了干净数据边距的条件，得到了良性过拟合，过拟合和非过拟合三种不同的情况，并揭示了神经元训练过程中的两个不同阶段。

Jun, 2023

ReLU网络训练的多项式时间解决方案：基于最大割和zonotopes的复杂性分类

研究了带有权重衰减正则化的两层ReLU神经网络的训练复杂性，证明了近似ReLU网络的困难程度不仅与Max-Cut问题的复杂性相对应，而且在某些特殊情况下确切对应。具有多项式时间近似保证和近似困难性结果，以及对三种不同类型训练数据集的多项式时间近似分类。

Nov, 2023

ReLU神经网络的凸松弛在多项式时间内近似全局最优

本文研究了采用权重衰减正则化的两层ReLU网络与其凸松弛之间的最优性差距，揭示了在随机训练数据情况下原问题与其松弛之间相对最优性差距可以通过O(√log n)的因子进行界定，且应用简单的算法可在多项式时间内解决原非凸问题，此外，在合理假设下，随机初始化参数的局部梯度方法几乎必定收敛于训练损失较低点，此结果相对现有结果而言具有指数级改进，并对解释局部梯度方法为何行之有效提供了新的见解。

Feb, 2024