多元神经网络学习真实目标函数
研究神经网络的优化问题,发现常见的损失函数在实现空间上是凸的,通过使用神经网络的近似能力来处理非凸性问题,利用 Sobolev norm 来建立一种限制的参数化空间来实现反稳定性,并证明在受限制的参数化空间内优化仍然可以学习任何可通过无限制优化学习的函数。
May, 2019
研究神经网络单隐层的一般化性能,使用非欧几里得正则化工具,证明了它们适应未知的线性结构,而使用稀疏感应规范则可以实现高维非线性变量选择,提供了简单的几何解释,并提供了一些凸松弛的简单条件来实现相同的一般化误差界限,留下存在或不存在多项式时间算法的问题。
Dec, 2014
本研究探讨神经网络的损失面。结果表明,大多数情况下,即使对于具有最轻微的非线性的单隐藏层网络,经验风险也有伪局部最小值。我们对深线性网络的全局最优性进行了全面的表征,统一了这个主题上的其他结果。
Feb, 2018
本文研究完全连接网络的优化问题,发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下,只要网络每层隐藏单元数大于训练点数,几乎所有的局部最小值都是全局最优解。
Apr, 2017
本文阐述了深度神经网络在一定情况下为何比其他模型表现更好,并通过考虑一定类别的非光滑函数,推导了使用 ReLU 激活的 DNN 的估计器的泛化误差,同时说明了 DNN 的收敛速率几乎是最优的,而某些流行的模型则未达到最优速率,这为选择合适的 DNN 层数和边提供了指导。
Feb, 2018
使用基于稀疏连接 ReLU 激活函数的深层神经网络,通过适当选择网络结构实现多变量非参数回归模型的极小极限 (最优) 收敛速率 (最多出现 $log n$- 因子),同时为多层前馈神经网络表现良好提供理论解释,并表明在不用结构约束的情况下,调整深度可以使模型的性能更好。
Aug, 2017
本研究通过凸优化理论分析发现,ReLU 神经网络通过一种隐含的正则化机制实现高维特征选择,并证明了该等价凸问题可以通过标准凸优化求解器在多项式时间内全局优化。
Oct, 2021
探讨了一种带 1 个隐藏激活层、任意宽度和 ReLU 激活函数的神经网络,研究了神经网络的偏差,解释了为何神经网络可能更偏好具有更简单的几何形状和为何某些低信息熵函数对于神经网络来说仍然难以近似。
Apr, 2023
我们研究了神经网络作为替代模型来近似和最小化优化问题中的目标函数的使用,通过确定适合目前非线性优化测试问题目标函数近似的最佳激活函数来提供证明,我们分析通过插值 / 回归模型和神经网络获得的函数值、梯度和 Hessian 矩阵的近似精度,结果显示神经网络在零阶和一阶近似方面表现出较高竞争力(对应较高的训练成本),但在二阶近似方面表现较差。然而,通过将神经网络激活函数与二次插值 / 回归的自然基组合,可以减少模型参数数量。最后,我们提供了证据表明,包括神经网络在内的任何考虑的替代模型用于逼近优化算法的梯度时,都无法明显改善目前最先进的无导数优化算法的性能。
Nov, 2023
本文研究了如何在训练多层神经网络时,通过采用类局部搜索方法(如随机梯度下降)避免陷入不良局部最小值,在给定非凸非光滑结构的情况下,它们如何适应随机标签;研究了在神经网络中如何使用 ReLU 激活函数避免指数梯度爆炸或消失;通过构建扰动理论,该理论可用于分析 ReLU 激活的多层网络的一阶数学逼近。
Oct, 2018