弱梯度和强梯度方向:解释尺度下的记忆、推广和难度
本文研究深度学习中记忆化的作用,探讨了容量,泛化,对抗鲁棒性的联系。作者的实验表明,深度神经网络在优化噪声数据和真实数据时存在数量上的差异,但经过适当的正则化调整(如dropout),我们可以降低其在噪声数据集上的训练性能,同时不影响在真实数据上的泛化能力。研究结果表明,数据集本身在决定记忆化程度时具有重要作用,而基于梯度优化方法的深度网络的泛化性能不太可能由数据集独立的有效容量来解释。
Jun, 2017
研究机器学习中的二个核心问题——如何预测最小值是否能推广到测试集,以及为什么随机梯度下降找到的最小值能很好地推广;探讨了小批量大小影响参数朝向大证据最小值的作用;当学习速率固定时,建议选择使测试集准确性最大化的最佳批次大小。
Oct, 2017
研究过参数化网络在单个训练样本和恒等映射任务中,记忆与泛化之间的相互作用。通过正式表征单层FCNs和CNNs中的泛化,我们展示了不同架构的归纳偏见。我们的工作有助于量化和可视化感性偏见对架构选择(如深度,内核宽度和通道数量)的敏感性。
Feb, 2019
本文提出了一个关于如何解释神经网络使用梯度下降算法泛化能力较强的假设Coherent Gradients,并支持该假设的启发式论证和简单实验证明。同时,该分析为防止过拟合提出了一种自然而然的梯度下降修改方法。
Feb, 2020
研究表明,深度神经网络的学习偏差会在训练的后期阶段出现第二次下降,其高频分量也会因此减少,导致测试误差的第二次下降,而网络的频谱可以用于指示测试误差的第二次下降。
Apr, 2020
本文提出一种新的指标m-coherence,用来实验性地研究训练过程中样本间梯度的对齐情况。通过使用m-coherence,我们研究了在ImageNet数据集上使用ResNet和Inception模型以及带有标签噪声的几个变体时,梯度对齐的演变情况,并对其进行了详细分析,从而更深入地证实了拟合理论。
Aug, 2020
通过几何分析深度神经网络的 memorization 结构及相关特征,发现较深层的 memorization 更为显著,可以通过恢复层权重预防,同时与模型几何结构和 generalization 性能有关。
May, 2021
通过信息论分析深度学习及神经网络,研究在训练过程中神经网络获取的信息,提出了限制权值中标签噪声信息的学习算法,并提出了样本信息度量概念,探究了神经网络在非典型、模棱两可或属于代表性较弱群体的情况下的行为,导出了非平凡的泛化表现界限,并通过知识蒸馏研究,证明了数据和标签复杂度在泛化中的重要作用。该论文深入研究了神经网络的泛化机制,有益于更深层次地理解此领域的相关知识。
Jun, 2023
通过三种实验方法,我们发现记忆化现象发生在模型的少数层中,而不是最后的几层;其次,我们发现记忆化往往局限于模型的少数神经元或通道;基于这些发现,我们提出了一种新的dropout方法,通过对特定的神经元进行dropout,我们能够减少记忆化的准确性,从而减小泛化差距。
Jul, 2023
现代神经网络的成功引发了对记忆和泛化之间关系的研究:过参数化的模型能够很好地进行泛化,尽管它们能够完美地拟合(记忆)完全随机的标签。本文通过对图像分类基准上ResNet的记忆度量进行实证计算,全面分析了神经模型大小对记忆能力的影响,结果发现不同模型大小的训练样本表现出意想不到的多样化记忆轨迹:较大模型下大多数样本减少了记忆,而部分样本呈现帽状或者递增型记忆。此外,我们发现知识蒸馏作为一种有效且流行的模型压缩技术,往往抑制记忆,同时提高了泛化能力,尤其是对于记录递增轨迹的示例,蒸馏技术能够有效提高泛化能力。
Oct, 2023