神经网络激活函数的经验损失景观分析
通过研究激活函数对死神经元和有效秩大小的影响,本文提出了一个新的神经网络结构,并展示了在 Atari 领域中学习速度更快、死神经元减少和有效秩增加的结果。
Jun, 2024
本文通过可视化方法探讨神经网络损失函数的结构和损失景观对泛化的影响,提出了一种简单的 “滤波器归一化” 方法来可视化损失函数曲率并对损失函数进行有意义的比较。然后,利用各种可视化方法,探索网络结构如何影响损失景观,以及训练参数如何影响最小化器的形状。
Dec, 2017
本文通过样条理论的角度展示了神经网络训练问题与函数的 Banach 空间有关,进一步论述了 ReLU 等激活函数的重要性,解释了神经网络设计与训练策略如何影响其性能,并为路径范数正则化及跳连等策略提供了新的理论支持。
Oct, 2019
研究论文探讨了激活函数对过度参数化神经网络训练的影响,指出了平滑的激活函数在训练中的优势和尺寸较小的数据维度可能导致训练速度变慢的问题,并讨论了这些结果的应用和推广。
Aug, 2019
本研究总结了神经网络架构中几种非线性激活函数的使用情况,并对这些函数在 MNIST 分类任务上的效果进行了实证分析,以确定哪些函数能够产生最佳结果。基于这些结果,研究了构建具有不同数量隐藏层的深度架构以及使用不同的初始化方案对神经网络的影响。最终提供了一个最优的神经网络架构,可在 MNIST 分类任务中获得令人印象深刻的准确度。
Oct, 2017
本文在深度神经网络中研究常用的饱和函数:logistic sigmoid 和双曲正切 (tanh),发现使用 logistic sigmoid 函数训练困难的原因不仅在于其非零中心属性,还在于其在原点附近的斜率过大。通过适当的重新调整,logistic sigmoid 和 tanh 函数的性能相当。接着,通过在负部分加罚项可以改进 tanh 函数,形成了 “带惩罚的 tanh” 函数,其性能甚至优于 ReLu 和 Leaky ReLU 等饱和函数。本文的结果与之前的研究结论产生冲突,表明有必要进一步研究深度架构中的激活函数。
Feb, 2016
本文介绍分段线性激活函数对神经网络损失曲面的形状有较大的影响,证明了许多神经网络的损失曲面具有无限的虚假局部极小值,将神经网络损失曲面分为多个平滑和多线性细胞。
Mar, 2020
本研究提供了正方形损失函数的所有临界点(以及全局优化器)的解析形式的全面(必要和充分)表征,展示了实现全球最小值的必要和充分条件,并通过极小值的分析形式表征了神经网络的损失函数的景观特性。
Oct, 2017
本研究探讨神经网络的损失面。结果表明,大多数情况下,即使对于具有最轻微的非线性的单隐藏层网络,经验风险也有伪局部最小值。我们对深线性网络的全局最优性进行了全面的表征,统一了这个主题上的其他结果。
Feb, 2018