随机特征和神经切向法中记忆和鲁棒性之间的基本折衷
本论文研究了在球面上进行方差损失下的未知函数 f * 的学习问题,并研究了神经切向核模型和 Rahimi-Recht 的随机特征模型等两种流行的模型,以及核岭回归。同时,论文探讨了样本数量有限或由于关于度数和样本数的适当估计而未能实现最优化性能时的情况,以及核方法随机选取核函数时的情况。
Apr, 2019
在神经切向(NT)区域的背景下,研究了过参数化现象和它们的推广误差特征,揭示了经验 NT 内核的特征并且证明了测试误差可以被无穷宽内核的核岭回归误差很好地近似。
Jul, 2020
本文研究具有 ReLU 激活函数且没有偏差项的两层神经网络的神经切向核(NTK)模型的 min(L2)-norm 过拟合解的泛化性能,并显示随着神经元数目 p 的增加,测试误差表现出不同于具有简单傅里叶或高斯特征的过度参数化线性模型的 “双峰现象” 的特征。
Mar, 2021
本文研究了采用经验风险最小化 (ERM) 训练的模型在面对强黑盒攻击时的安全性,并提供了其模型稳定性和特征对齐方面的结果,揭示了隐私强度随一般化能力增强增强的规律,并展示出其结果在实验中得到了很好的验证。
May, 2023
通过研究多层前馈 ReLU 神经网络、交叉熵损失函数、核方法等工具,我们发现标准 l2 正则化器在实际应用中具有很大优越性,并且通过构造一个简单的 d 维数据集,我们证明了有正则化器的神经网络只需要 O (d) 的数据集就能训练成功,而对于无正则化器的 NTK 神经网络,则需要至少 Omega (d^2) 的数据才能训练成功。同时,我们还证明了无限宽度的两层神经网络能够通过有噪音的梯度下降优化正则化器,并且能够得到全局最优解。
Oct, 2018
本文考虑使用随机特征空间,在测度无限趋近于无限,特征维度和样本量趋近于无穷大的情况下,利用结果回归模型和双下降现象等关键词解释深度学习模型中的奇妙现象。
Aug, 2019
研究显示神经网络的大小和唇氏常数之间存在固有的权衡,为保证唇氏恒定至少需要数据点数除以神经元个数的个数级别的神经元,过参数化(神经元数大于数据点数)是保证鲁棒性的必要条件,仅数据拟合仅需要 D 个数据点一个神经元。
Sep, 2020
在两种模型下,我们使用二层神经网络带有二次激活函数进行监督学习,证明了当神经元数量小于特征向量维度时,在随机特征和神经切线等三种不同的学习方案中,性能存在无限制的差距。当神经元数量大于特征向量维度时,这个问题变得容易,神经切线和完全训练的神经网络都能实现零风险。
Jun, 2019
我们研究了具有噪声标签的一元非参数回归问题中两层 ReLU 神经网络的泛化。我们提出了一种新的局部极小值泛化理论,证明了梯度下降算法在常数学习率下能稳定收敛至该极小值。我们证明了在合理的假设下,梯度下降算法可以找到表示平滑函数的局部极小值,并给出了均方误差的近乎最优上界。我们的理论结果通过大量模拟验证,表明大学习率训练可以得到稀疏线性样条拟合。我们是第一个在非插值情况下通过极小值稳定性获得泛化界限的研究,并且证明了没有正则化的 ReLU 神经网络可以在非参数回归中实现接近最优的速率。
Jun, 2024
用梯度流训练具有近似保证的神经网络对目标进行测量,并在连续的带状 d 维单位球上用 L2 正规化,网络为全连接的常数深度和增加的宽度,基于神经切向核(NTK)对非凸倒数第二层的分析,呈现出欠参数化的状态以满足近似所需的自然平滑性假设。
Sep, 2023