对受正则化目标训练的模型输入添加噪音
研究神经网络单隐层的一般化性能,使用非欧几里得正则化工具,证明了它们适应未知的线性结构,而使用稀疏感应规范则可以实现高维非线性变量选择,提供了简单的几何解释,并提供了一些凸松弛的简单条件来实现相同的一般化误差界限,留下存在或不存在多项式时间算法的问题。
Dec, 2014
本文研究在神经网络中加入惩罚输出分布熵的正,则可以有效防止过拟合,并且可以通过最大熵的置信惩罚和标签平滑相连,取得了基于图像识别、语言建模、机器翻译和语音识别的6个数据集的最新成果。
Jan, 2017
通过多次噪声注入来提高泛化性能使得深度神经网络可以更好地防止过拟合,本文提出了一种使用随机梯度下降迭代中每个训练样本的多个噪声样本来实现更紧密下界的技术,并在几个计算机视觉应用中展示了其优越性。
Oct, 2017
本文研究了超参数化神经网络在存在随机噪声的情况下恢复真实目标函数的能力,证明了采用 L2 正则化的神经网络与相应的神经切线核的核岭回归输出相似,并可以实现 L2 估计误差的最佳最小值,数值实验证实了该理论,同时表明 L2 正则化方法提高了训练的鲁棒性并适用于更广泛的神经网络。
Jul, 2020
本文提出一种对于任意强凸和光滑的优化问题,通过随机梯度下降的迭代进行均值处理可以获得与正则化参数可调的正则化方案,该方案同样适用于加速和预调节优化方法,并在神经网络等更广泛的优化目标上得到实证验证。
Aug, 2020
本文探讨了在机器学习模型训练中注入人工噪声以提高性能的问题,并发现相比于无相关噪声和有相关噪声的方法,采用反相关噪声的梯度下降方法(Anti-PGD)能够更好地推广至新数据集上,这一发现为利用噪声进行机器学习模型训练提供了新的思路。
Feb, 2022
本研究着重于探讨fine-tuning方法对目标任务迁移学习的一般化能力以及过拟合的问题, 结论发现Hessian是影响fine-tuning方法一般化能力的重要因素, 并设计了一种具有一般化误差保证的基于Hessian距离的fine-tuning方法, 在实证研究中取得了优于已有方法的精度表现, 方差也更小。
Jun, 2022
最近的研究表明,诸如SAM之类的方法能够明确或隐含地对二阶信息进行惩罚,从而提高深度学习的泛化能力。然而,权重噪声和梯度惩罚等看似类似的方法通常无法提供这样的好处。本文通过损失函数的海塞矩阵结构展示了这些差异可以得到解释。首先,我们展示了海塞矩阵的一个常见分解可以定量解释特征的利用和探索。探索特征可以由非线性建模误差矩阵(NME)来描述,在插值时通常被文献中忽略。我们的工作表明,NME实际上是重要的,因为它可以解释为什么梯度惩罚对激活函数的选择敏感。利用这一洞见,我们设计了改进性能的干预措施。我们还提供证据挑战了长期以来权重噪声和梯度惩罚的等价性。这种等价性依赖于可以忽略NME的假设,但我们发现这一假设对于现代网络并不成立,因为它们涉及显著的特征学习。我们发现,正则化特征的利用而不是探索能够获得与梯度惩罚相似的性能。
Jan, 2024