两层 ReLU 卷积神经网络在 XOR 数据中的良性过拟合
在本研究中,我们证明在两层 ReLU 网络中,通过梯度下降训练,当训练标签中有恒定比例的错误时,神经网络在第一步达到 100%的训练准确性,然后在测试数据上表现出随机的准确性,而在后续的训练步骤中达到接近最优的测试准确性,这展示了一种新的过拟合现象。
Oct, 2023
本研究探讨了现代机器学习模型中广泛存在的过度拟合现象及理论预测,表明超学习风险会在满足一定条件的情况下逐渐减小,并且在两层神经网络中使用 ReLU 激活函数的情况下具有近最小化学习率的能力。同时,还发现当网络参数数量超过 O (n^2) 时,超学习风险开始增加,这与最近的实证结果相符。
Jun, 2021
该研究针对二元分类任务,使用带有折线损失的两层泄漏整流线性单元网络,研究了良性过拟合问题,通过对模型参数的信号噪声比进行特征化,发现高信噪比出现良性过拟合,低信噪比出现有害过拟合,并将良性和非良性过拟合归因于近似边际最大化特性,同时降低了训练数据的正交性要求。
Mar, 2024
本文研究过参数神经网络的过拟合现象,并证明了在不同的维度下会出现不同种类的过拟合现象,包括良性过拟合和温和过拟合,并解释了这些现象与样本大小、网络结构等因素的相关性。
May, 2023
本文探讨了使用梯度下降和 hinge loss 在嘈杂数据上训练的两层 ReLU 网络的良性过拟合问题,研究了线性可分数据,给出了干净数据边距的条件,得到了良性过拟合,过拟合和非过拟合三种不同的情况,并揭示了神经元训练过程中的两个不同阶段。
Jun, 2023
本文探讨了二层 ReLU 神经网络梯度下降训练过程中的特征学习,研究了使用 XOR 函数生成的带标签二进制数据,对一定比例的训练标签的干扰具有影响。我们证明了线性分类器并不比随机猜测的效果更好,而使用梯度下降训练二层 ReLU 神经网络可以达到接近噪声率的泛化误差。我们提出了一种新的证明技术,证明了在初始化时,绝大多数神经元都具有随机特征的性质,与有用特征之间的相关性较弱,而梯度下降动态将这些弱随机特征 “放大” 为强有用特征。
Feb, 2022
本研究探讨了在过度参数化的深度神经网络中,当网络宽度大于训练样本大小和目标误差的高次多项式的倒数时,通过(随机)梯度下降学习的深度神经网络可以获得良好的优化和泛化性能。此外,我们还构建了深层 ReLU 网络的学习保证,使得网络宽度对 n 和 ϵ 的对数具有良好保证。
Nov, 2019
该论文分析了一个简单的 2 层 ReLU 网络的训练和泛化,通过对相关内核的特性进行追踪,提出了更紧致的训练速度特征描述和网络大小无关的泛化界限以及对梯度下降训练的广泛平滑函数可学性的证明。
Jan, 2019