神经网络激活函数的经验损失景观分析

Jun, 2023

神经网络激活函数的经验损失景观分析

Empirical Loss Landscape Analysis of Neural Network Activation Functions

Anna Sergeevna Bosman, Andries Engelbrecht, Marde Helbig

TL;DR此研究对与神经网络有关的损失景观进行了实证调查，发现修正线性单元产生最凸的损失景观，而指数线性单元产生最不平坦的损失景观，且表现出优越的泛化性能。

Abstract

activation functions play a significant role in neural network design by enabling non-linearity. The choice of activation function was previously shown to influence the properties of the resulting loss landscape. Understanding the relationship between →

neural networks activation functions loss landscapes rectified linear unit exponential linear unit

发现论文，激发创造

潜在辅助网络：在强化学习中重新发现双曲正切函数

通过研究激活函数对死神经元和有效秩大小的影响，本文提出了一个新的神经网络结构，并展示了在 Atari 领域中学习速度更快、死神经元减少和有效秩增加的结果。

Jun, 2024

神经网络的损失函数可视化

本文通过可视化方法探讨神经网络损失函数的结构和损失景观对泛化的影响，提出了一种简单的 “滤波器归一化” 方法来可视化损失函数曲率并对损失函数进行有意义的比较。然后，利用各种可视化方法，探索网络结构如何影响损失景观，以及训练参数如何影响最小化器的形状。

Dec, 2017

神经网络激活函数的作用

本文通过样条理论的角度展示了神经网络训练问题与函数的 Banach 空间有关，进一步论述了 ReLU 等激活函数的重要性，解释了神经网络设计与训练策略如何影响其性能，并为路径范数正则化及跳连等策略提供了新的理论支持。

Oct, 2019

激活函数对超参数化神经网络训练的影响

研究论文探讨了激活函数对过度参数化神经网络训练的影响，指出了平滑的激活函数在训练中的优势和尺寸较小的数据维度可能导致训练速度变慢的问题，并讨论了这些结果的应用和推广。

Aug, 2019

发现参数激活函数

本文提出了一种使用进化搜索和梯度下降优化参数的方法来自动定制激活函数，实现对深度学习网络性能的可靠优化，验证结果表明该方法可以用作新任务的自动优化步骤。

Jun, 2020

深度神经网络分类任务中非线性激活函数的经验性分析

本研究总结了神经网络架构中几种非线性激活函数的使用情况，并对这些函数在 MNIST 分类任务上的效果进行了实证分析，以确定哪些函数能够产生最佳结果。基于这些结果，研究了构建具有不同数量隐藏层的深度架构以及使用不同的初始化方案对神经网络的影响。最终提供了一个最优的神经网络架构，可在 MNIST 分类任务中获得令人印象深刻的准确度。

Oct, 2017

修正饱和激活函数

本文在深度神经网络中研究常用的饱和函数：logistic sigmoid 和双曲正切 (tanh)，发现使用 logistic sigmoid 函数训练困难的原因不仅在于其非零中心属性，还在于其在原点附近的斜率过大。通过适当的重新调整，logistic sigmoid 和 tanh 函数的性能相当。接着，通过在负部分加罚项可以改进 tanh 函数，形成了 “带惩罚的 tanh” 函数，其性能甚至优于 ReLu 和 Leaky ReLU 等饱和函数。本文的结果与之前的研究结论产生冲突，表明有必要进一步研究深度架构中的激活函数。

Feb, 2016

分段线性激活显著地塑造了神经网络的损失曲面

本文介绍分段线性激活函数对神经网络损失曲面的形状有较大的影响，证明了许多神经网络的损失曲面具有无限的虚假局部极小值，将神经网络损失曲面分为多个平滑和多线性细胞。

Mar, 2020

神经网络的临界点：解析形式与景观特性

本研究提供了正方形损失函数的所有临界点（以及全局优化器）的解析形式的全面（必要和充分）表征，展示了实现全球最小值的必要和充分条件，并通过极小值的分析形式表征了神经网络的损失函数的景观特性。

Oct, 2017

神经网络中激活函数的小非线性性会引起糟糕的局部最小值

本研究探讨神经网络的损失面。结果表明，大多数情况下，即使对于具有最轻微的非线性的单隐藏层网络，经验风险也有伪局部最小值。我们对深线性网络的全局最优性进行了全面的表征，统一了这个主题上的其他结果。

Feb, 2018