深度 ReLU 网络的逆向工程:一种基于优化的算法
本研究通过凸优化理论分析发现,ReLU 神经网络通过一种隐含的正则化机制实现高维特征选择,并证明了该等价凸问题可以通过标准凸优化求解器在多项式时间内全局优化。
Oct, 2021
本文研究了基于 ReLU 激活函数的两层神经网络的凸优化及其群 lasso 正则化和加速近端梯度算法,该方法在 MNIST 和 CIFAR-10 数据集的图像分类方面表现良好。
Feb, 2022
本文研究从标准高斯分布采样输入,从嘈杂的教师网络生成输出的一层隐藏神经网络的学习问题。研究分析了梯度下降在基于经验风险最小化的训练中的性能,并提供了算法相关的保证,证明了张量初始化后跟随梯度下降可以以线性速率收敛到地面真值参数,证明本文是第一个表征实际学习具有多个神经元的一层 ReLU 网络的恢复保证的工作。数值实验验证了我们的理论发现。
Jun, 2018
通过把非凸培训问题重新定义为凸程序,我们开发了一个分析框架来表征最佳 ReLU 神经网络的集合,并指出凸参数化的全局最优解是由一个多面体集合给出的。我们还扩展了这种特征,以获得非凸培训目标的最优集合。由于 ReLU 培训问题的所有静态点都可以表示为子采样凸计划的最优解,因此我们的工作为所有非凸目标的临界点提供了一个一般表达式。我们利用这些结果,提供了一种计算最小网络的最佳减枝算法,建立了 ReLU 网络正则化路径连续的条件,并开发了最小 ReLU 网络的灵敏度结果。
May, 2023
本文提出了一种凸二元框架用于优化神经网络,从而解决了其在敏感应用如医学成像中的非凸和不透明性质的问题。该凸对偶网络不仅能够通过凸优化器获得最优训练,还有利于训练和预测的解释,特别是通过权重衰减正则化训练神经网络,诱导路径稀疏性的同时,预测是分段线性滤波。实验结果表明,该凸对偶网络优化问题在 MNIST 和 fastMRI 数据集上有效。
Dec, 2020
本文研究正则化深度神经网络及其隐层结构,通过凸分析框架构建问题的最优隐层权重,证明 For 深度 ReLU 网络,权重矩阵与之前的层通过对偶对齐,并给出了数据为基态或白话时的权重的解析解。同时,该研究也可以甚至适用于具有批归一化架构的深度神经网络,并给出了 “神经坍塌” 现象的完整解释。
Feb, 2020
研究如何使用 ReLU 激活函数、梯度下降和随机梯度下降来训练深度神经网络,证明在一定条件下,充分的随机权重初始化能够让这些方法在超参数化的深层 ReLU 网络上达到全局最小值。
Nov, 2018
本文研究了采用权重衰减正则化的两层 ReLU 网络与其凸松弛之间的最优性差距,揭示了在随机训练数据情况下原问题与其松弛之间相对最优性差距可以通过 O (√log n) 的因子进行界定,且应用简单的算法可在多项式时间内解决原非凸问题,此外,在合理假设下,随机初始化参数的局部梯度方法几乎必定收敛于训练损失较低点,此结果相对现有结果而言具有指数级改进,并对解释局部梯度方法为何行之有效提供了新的见解。
Feb, 2024
研究神经网络的优化问题,发现常见的损失函数在实现空间上是凸的,通过使用神经网络的近似能力来处理非凸性问题,利用 Sobolev norm 来建立一种限制的参数化空间来实现反稳定性,并证明在受限制的参数化空间内优化仍然可以学习任何可通过无限制优化学习的函数。
May, 2019