激活函数的不激活:神经网络解释的合理理论
线性回归和神经网络广泛用于建模数据。我们提出的研究中,通过对 LNN 的优化分析和与线性回归在合成噪声数据集上的性能比较,证明了没有激活函数的神经网络在训练和测试性能方面都会降低。
Dec, 2023
研究深度神经网络的表现力,将其复杂性衡量为连接数或神经元数,通过近似理论建立了逼近空间,研究 skip-connections 和非线性对逼近空间的影响,将其与 Besov 空间联系起来,发现如果深度足够,即使函数平滑度很低,也能够很好地通过神经网络逼近。
May, 2019
本文通过样条理论的角度展示了神经网络训练问题与函数的 Banach 空间有关,进一步论述了 ReLU 等激活函数的重要性,解释了神经网络设计与训练策略如何影响其性能,并为路径范数正则化及跳连等策略提供了新的理论支持。
Oct, 2019
研究神经网络单隐层的一般化性能,使用非欧几里得正则化工具,证明了它们适应未知的线性结构,而使用稀疏感应规范则可以实现高维非线性变量选择,提供了简单的几何解释,并提供了一些凸松弛的简单条件来实现相同的一般化误差界限,留下存在或不存在多项式时间算法的问题。
Dec, 2014
本文研究神经网络的理论解释,针对单个隐藏层、平滑激活函数和良好输入分布条件下生成的数据可否进行有效学习,证明了对于广泛的激活函数和任何对数凹分布的输入,存在一类单隐藏层函数,其输出为和门,难以以任何精度有效地学习,这一下界对权重的微小扰动具有鲁棒性,且通过实验验证了训练误差的相变现象。
Jul, 2017
在本文中,我们展示了解释神经元模型内部工作的方法通常仅关注最高激活水平是不足够的,并且最高激活范围只负责神经元因果效应的很小百分比。我们提出神经元应该被理解为概念的线性组合,并开发了一种高效的方法来生成这些线性解释。此外,我们展示了如何使用模拟自动评估描述质量,即在视觉设置中预测神经元对未知输入的激活。
May, 2024
研究论文探讨了激活函数对过度参数化神经网络训练的影响,指出了平滑的激活函数在训练中的优势和尺寸较小的数据维度可能导致训练速度变慢的问题,并讨论了这些结果的应用和推广。
Aug, 2019
该研究论文探讨自然语言处理领域的可解释性方法,重点关注 transformer 中前馈层激活空间(Activation Space),旨在加强该领域的研究。
Jan, 2023
我们通过统计物理学中的复制法,分析具有通用激活函数的全连接双层神经网络的解空间结构和存储容量,并发现存储容量与参数的关系是有限的,在无限宽度的条件下,网络的权重表现出负相关性,并且随着数据集大小的增加,存在一个特定的转变点触发相变,权重的置换对称性被破坏,解空间分裂成不相交的区域。我们进一步确定了这一转变点和存储容量与激活函数的选择之间的依赖关系,这些发现有助于理解激活函数和参数数量对解空间结构的影响,可能为根据特定目标选择合适的架构提供了洞见。
Apr, 2024