本文研究了具有阈值激活函数的神经网络的权重衰减正则化训练问题,发现在网络的最后一个隐藏层宽度超过一定阈值时,这些问题可以被等价地形式化为标准的凸优化问题,类似于 LASSO 方法,并且通过各种数字实验验证理论结果。
Mar, 2023
离散优化问题在深度学习任务中经常出现,尽管神经网络通常操作于连续数据。本文探讨了一种基于分数近似的框架,用于解决依赖于神经网络的目标函数和离散优化变量的问题。通过利用离散变量的嵌入和自动微分框架的计算速度,在对抗性集合分类任务中,我们实验性地证明了我们的方法在速度和解决方案质量方面相比启发式方法具有更好的权衡。
Oct, 2023
通过对具有 ReLU 激活函数的一层神经网络的分析,我们发现神经网络具有良好的优化特性,其具有多样的单元没有虚假局部最小值,在满足 “扩展特征矩阵” 的最小奇异值足够大的条件下,可以使损失函数变得任意小。
Nov, 2016
本文研究神经网络的理论解释,针对单个隐藏层、平滑激活函数和良好输入分布条件下生成的数据可否进行有效学习,证明了对于广泛的激活函数和任何对数凹分布的输入,存在一类单隐藏层函数,其输出为和门,难以以任何精度有效地学习,这一下界对权重的微小扰动具有鲁棒性,且通过实验验证了训练误差的相变现象。
Jul, 2017
本研究比较了使用纯粹外推梯度信息和比较有效解的两种方法,以解决离散优化问题在机器学习应用中的使用,首先概述了这两种方法及其缺点,然后通过实验证明了它们的性能差异。
Feb, 2024
简述:对深度学习的理论研究逐渐深入,从表示能力到优化、从梯度下降的泛化性质到固有隐藏复杂性的到达方式,已经有了一些解释;通过在分类任务中使用经典的均匀收敛结果,我们证明了在每个层的权重矩阵上施加单位范数约束下最小化替代指数型损失函数的有效性,从而解决了与深度网络泛化性能相关的一些谜团。
Aug, 2019
本研究通过凸优化理论分析发现,ReLU 神经网络通过一种隐含的正则化机制实现高维特征选择,并证明了该等价凸问题可以通过标准凸优化求解器在多项式时间内全局优化。
Oct, 2021
本文提出一个新的凸化软阈值神经网络的方法,设计一个凸对偶网络来解决网络的非线性和非凸性造成的全局最优解难以获得的问题,并在线性拟合和降噪实验中验证了此结论。
Apr, 2023
研究神经网络单隐层的一般化性能,使用非欧几里得正则化工具,证明了它们适应未知的线性结构,而使用稀疏感应规范则可以实现高维非线性变量选择,提供了简单的几何解释,并提供了一些凸松弛的简单条件来实现相同的一般化误差界限,留下存在或不存在多项式时间算法的问题。
Dec, 2014
本文研究完全连接网络的优化问题,发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下,只要网络每层隐藏单元数大于训练点数,几乎所有的局部最小值都是全局最优解。
Apr, 2017