神经网络训练的计算效率
本文研究神经网络的理论解释,针对单个隐藏层、平滑激活函数和良好输入分布条件下生成的数据可否进行有效学习,证明了对于广泛的激活函数和任何对数凹分布的输入,存在一类单隐藏层函数,其输出为和门,难以以任何精度有效地学习,这一下界对权重的微小扰动具有鲁棒性,且通过实验验证了训练误差的相变现象。
Jul, 2017
本文提出了基于静态半空间报告数据结构的神经网络训练方法,通过几何搜索实现亚线性时间的激活神经元识别,并证明该算法可以在 O (M^2/ε^2) 的时间内收敛,其中 M 是系数范数上限,ε 是误差项。
Jul, 2023
本文探讨了采用 ReLU 激活函数训练神经网络的复杂度问题,研究表明在神经元构架固定的情况下,两层 ReLU 神经网络的训练是 NP - 难问题,但在第一隐藏层提供足够的超参数时,可以通过多项式时间算法找到合适的权重。
Sep, 2018
本文研究了使用不同激活函数定义的神经网络的训练问题的复杂性,证明了 sigmoid 激活函数导致的训练问题多项式时间可约化到存在性理论中,但是对于正弦激活函数的训练问题是不可判定的,并给出了限制条件下的训练问题的复杂性的上界。
May, 2023
研究论文探讨了激活函数对过度参数化神经网络训练的影响,指出了平滑的激活函数在训练中的优势和尺寸较小的数据维度可能导致训练速度变慢的问题,并讨论了这些结果的应用和推广。
Aug, 2019
本文研究了使用随机梯度下降(SGD)训练任意宽度的两层神经网络(NN),其中输入 x 是高斯分布的,目标 y 遵循多指数模型,并证明了当基于 SGD 和权重衰减进行训练时,NN 的第一层权重将收敛于真实模型的向量 u1,...,uk 所张成的 k 维主子空间,从而建立了一个独立于 NN 宽度的一般化误差边界,并进一步证明了,使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标,其样本复杂度与 d 成线性关系,而不是通过核区域中的任何 p 次多项式的已知 d 奥米(p)样本要求,这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。
Sep, 2022
神经网络对数据的拟合能力的研究发现,标准优化算法找到的最小值只能适应参数比样本数量少很多的训练集,卷积网络比多层感知机和视觉注意力变换模型更有效,随机梯度下降在拟合训练集方面比全批量梯度下降更好,对于正确和错误标记样本的拟合能力差异可以预测泛化性能,ReLU 激活函数能找到更多的数据拟合最小值尽管旨在避免深层神经网络中的梯度消失和梯度爆炸。
Jun, 2024