用于训练两层ReLU神经网络的凸优化公式
本研究提出了使用ReLU激活函数的卷积神经网络(CNN)的训练方法,并引入了确切的凸优化公式,其复杂度与数据样本数量、神经元数量和数据维数成多项式关系。特别是,我们开发了一个凸解析框架,利用半无限对偶性来获得两层和三层CNN体系结构的等效凸优化问题。我们首先证明了利用l2范数正则化的凸程序可以全局优化两层CNNs。然后,我们证明了具有单个ReLU层的循环多层CNN训练问题等价于鼓励谱区域中的稀疏性的l1正则化凸优化程序。我们还将这些结果扩展到具有两个ReLU层的三层CNN中,并阐明了不同池化方法的内在建筑偏差作为凸正则化器的观点。
Jun, 2020
这篇论文描述了两层向量输出ReLU神经网络训练问题的凸半无限对偶问题,利用它可以找到全局最优解,而神经网络隐式地尝试通过半非负矩阵分解解决共正程序。
Dec, 2020
本文研究了基于ReLU激活函数的两层神经网络的凸优化及其群lasso正则化和加速近端梯度算法,该方法在MNIST和CIFAR-10数据集的图像分类方面表现良好。
Feb, 2022
通过把非凸培训问题重新定义为凸程序,我们开发了一个分析框架来表征最佳 ReLU 神经网络的集合,并指出凸参数化的全局最优解是由一个多面体集合给出的。我们还扩展了这种特征,以获得非凸培训目标的最优集合。由于 ReLU 培训问题的所有静态点都可以表示为子采样凸计划的最优解,因此我们的工作为所有非凸目标的临界点提供了一个一般表达式。我们利用这些结果,提供了一种计算最小网络的最佳减枝算法,建立了 ReLU 网络正则化路径连续的条件,并开发了最小 ReLU 网络的灵敏度结果。
May, 2023
通过对常用凸松弛方法进行深入研究,我们发现:(i)更高级的松弛方法允许更多单变量函数被精确分析的ReLU网络表达,(ii)更精确的松弛方法能够允许指数级规模的解空间编码相同函数的ReLU网络,以及(iii)即使使用最精确的单神经元松弛方法,也无法构建能够精确分析多变量凸、单调的分段线性函数的ReLU网络。
Nov, 2023
研究了带有权重衰减正则化的两层ReLU神经网络的训练复杂性,证明了近似ReLU网络的困难程度不仅与Max-Cut问题的复杂性相对应,而且在某些特殊情况下确切对应。具有多项式时间近似保证和近似困难性结果,以及对三种不同类型训练数据集的多项式时间近似分类。
Nov, 2023
通过使用凸优化理论和稀疏恢复模型来改进神经网络的训练过程,并对其最优权重提供更好的解释,我们的研究侧重于以分段线性激活函数构建的两层神经网络的训练,证明了这些网络可以表达为一个有限维的凸规划问题,其中包括促使稀疏性的正则化项,构成Lasso的变种。通过大量的数值实验,我们展示了凸模型可以胜过传统非凸方法,并且对于优化器的超参数并不敏感。
Dec, 2023
本文研究了采用权重衰减正则化的两层ReLU网络与其凸松弛之间的最优性差距,揭示了在随机训练数据情况下原问题与其松弛之间相对最优性差距可以通过O(√log n)的因子进行界定,且应用简单的算法可在多项式时间内解决原非凸问题,此外,在合理假设下,随机初始化参数的局部梯度方法几乎必定收敛于训练损失较低点,此结果相对现有结果而言具有指数级改进,并对解释局部梯度方法为何行之有效提供了新的见解。
Feb, 2024
该研究解决了ReLU网络在完全认证中表达能力受限的问题,通过提出基于(层级)多神经元松弛的全新方法,证明此方法可以为一般ReLU网络提供完全认证。研究发现,这一创新理论突破使ReLU网络的表达能力不再受限,对认证稳健性的实践具有重要影响。
Oct, 2024