神经网络中的分数概念:增强激活和损失函数
我们提出了一种统一的神经网络激活函数表示形式,采用分数阶微积分的 Mittag-Leffler 函数,该形式能够插值不同的激活函数并减轻神经网络训练中普遍存在的梯度消失和梯度爆炸等问题。使用 Lenet-5 神经网络在 MNIST 和 CIFAR-10 数据集上训练,我们证明采用统一的门控表示法是传统机器学习框架中内置的激活函数实现的一种有前途且经济的替代方案。
Feb, 2023
本文提出一种新型的神经网络构架,利用基于惩罚项的训练问题来编码激活函数,这种框架可以被应用于 block-coordinate descent 算法中,该算法可以在每次迭代中通过并行化数据点和 / 或层数来解决简单(没有隐藏层)的监督学习问题,实验结果表明该方法为标准神经网络提供了极佳的初始权重估计,并且对于使用参数优化激活函数、对抗噪声数据的拓展也提供了思路。
May, 2018
本研究旨在探讨神经网络激活函数中的本地竞争机制,并发现这种自我模块化特性的有益性,证明这种特性能有效提高网络性能,此外还表明该方法在利用神经网络有效地检索大型数据集方面具有广泛应用前景。
Oct, 2014
通过研究激活函数的角色,论文揭示了常用的激活函数以及两段式分段线性函数在表达函数时的局限性,并介绍了一种新的 N - 激活函数,证明其比目前流行的激活函数更具表达能力。
Nov, 2023
本文研究了具有阈值激活函数的神经网络的权重衰减正则化训练问题,发现在网络的最后一个隐藏层宽度超过一定阈值时,这些问题可以被等价地形式化为标准的凸优化问题,类似于 LASSO 方法,并且通过各种数字实验验证理论结果。
Mar, 2023
我们介绍了 FROND(FRactional-Order graph Neural Dynamical network),这是一个新的连续图神经网络(GNN)框架,通过使用 Caputo 分数阶导数来利用分数阶微积分的非局部特性,使得该方法能够捕捉长期依赖的特征更新,并提供了在图表示学习中超越传统整数阶模型的增强能力。我们从非马尔科夫随机游走的角度解释了 FROND 中的节点特征更新过程,特别是在特征更新受扩散过程约束时。我们在理论上证明了在这种设置下可以缓解过度平滑的问题。在实验中,我们通过比较各种已建立的整数阶连续 GNN 的分数适应性,验证了 FROND 框架的有效性,并突出了该框架作为增强传统连续 GNN 的有效扩展的潜力。代码可在 https://github.com/zknus/ICLR2024-FROND 获得。
Apr, 2024
本文提出使用分布损失来规范激活流,成功改善了二值神经网络训练中遇到的退化、饱和和梯度失配等问题,并在不影响其能量效率的同时,提高了其准确性。此外,该规范化方法还能使训练过程更加稳健。
Apr, 2019
我们研究了神经网络作为替代模型来近似和最小化优化问题中的目标函数的使用,通过确定适合目前非线性优化测试问题目标函数近似的最佳激活函数来提供证明,我们分析通过插值 / 回归模型和神经网络获得的函数值、梯度和 Hessian 矩阵的近似精度,结果显示神经网络在零阶和一阶近似方面表现出较高竞争力(对应较高的训练成本),但在二阶近似方面表现较差。然而,通过将神经网络激活函数与二次插值 / 回归的自然基组合,可以减少模型参数数量。最后,我们提供了证据表明,包括神经网络在内的任何考虑的替代模型用于逼近优化算法的梯度时,都无法明显改善目前最先进的无导数优化算法的性能。
Nov, 2023