深度神经网络泛化与记忆的几何学
通过三种实验方法,我们发现记忆化现象发生在模型的少数层中,而不是最后的几层;其次,我们发现记忆化往往局限于模型的少数神经元或通道;基于这些发现,我们提出了一种新的 dropout 方法,通过对特定的神经元进行 dropout,我们能够减少记忆化的准确性,从而减小泛化差距。
Jul, 2023
本文研究深度学习中记忆化的作用,探讨了容量,泛化,对抗鲁棒性的联系。作者的实验表明,深度神经网络在优化噪声数据和真实数据时存在数量上的差异,但经过适当的正则化调整(如 dropout),我们可以降低其在噪声数据集上的训练性能,同时不影响在真实数据上的泛化能力。研究结果表明,数据集本身在决定记忆化程度时具有重要作用,而基于梯度优化方法的深度网络的泛化性能不太可能由数据集独立的有效容量来解释。
Jun, 2017
基于深度学习和深度神经网络的记忆现象对模型泛化性、安全性和隐私造成了影响,并提出了系统性框架以及评估方法,通过综合文献回顾探索了深度神经网络记忆行为对安全隐私的影响,还介绍了由记忆引起的隐私漏洞,忽略现象,以及它们在噪声标签学习、隐私保护和模型增强等应用中的潜在机制,为加强人工智能发展并解决重要的伦理问题提供了独特的认识。
Jun, 2024
现代神经网络的成功引发了对记忆和泛化之间关系的研究:过参数化的模型能够很好地进行泛化,尽管它们能够完美地拟合(记忆)完全随机的标签。本文通过对图像分类基准上 ResNet 的记忆度量进行实证计算,全面分析了神经模型大小对记忆能力的影响,结果发现不同模型大小的训练样本表现出意想不到的多样化记忆轨迹:较大模型下大多数样本减少了记忆,而部分样本呈现帽状或者递增型记忆。此外,我们发现知识蒸馏作为一种有效且流行的模型压缩技术,往往抑制记忆,同时提高了泛化能力,尤其是对于记录递增轨迹的示例,蒸馏技术能够有效提高泛化能力。
Oct, 2023
研究表明,深度神经网络的学习偏差会在训练的后期阶段出现第二次下降,其高频分量也会因此减少,导致测试误差的第二次下降,而网络的频谱可以用于指示测试误差的第二次下降。
Apr, 2020
研究过参数化网络在单个训练样本和恒等映射任务中,记忆与泛化之间的相互作用。通过正式表征单层 FCNs 和 CNNs 中的泛化,我们展示了不同架构的归纳偏见。我们的工作有助于量化和可视化感性偏见对架构选择(如深度,内核宽度和通道数量)的敏感性。
Feb, 2019
本文研究发现,为了在过量参数化情况下实现 100% 的准确率,神经网络可以训练出能够完美记忆训练数据的能力,即使在神经元数量要远小于训练样本数量的情况下依旧适用。
Sep, 2019
该研究通过系统实验和理论构建发现,传统方法很难解释为什么大型神经网络的泛化性能良好,即使加入正则化仍然不会改变随机标记训练数据的状态,因为只要参数数量超过数据点数量,简单的两层神经网络就能实现完美的有限样本表达能力。
Nov, 2016
通过采用特定实例的观点,本研究论文调查了神经网络的插值方法,引入了一个简单的随机算法,通过固定的有限数据集,高概率地构建了一个可以插值的三层神经网络,其所需参数数量与两个类别及其相互排列的几何属性有关,从而获得了与样本数无关的保证,并通过大量数值实验将洞察力与理论结果相联系。
Sep, 2023