深度神经网络泛化与记忆的几何学
本文通过展示泛化能力不受网络大小控制,而受其他隐含控制方法控制的方式,阐述了优化在深度学习模型泛化中的至关重要性,并通过研究深度网络参数空间的几何和设计一种调整到此空间的最优化算法来改善泛化能力。
May, 2017
本文研究深度学习中记忆化的作用,探讨了容量,泛化,对抗鲁棒性的联系。作者的实验表明,深度神经网络在优化噪声数据和真实数据时存在数量上的差异,但经过适当的正则化调整(如dropout),我们可以降低其在噪声数据集上的训练性能,同时不影响在真实数据上的泛化能力。研究结果表明,数据集本身在决定记忆化程度时具有重要作用,而基于梯度优化方法的深度网络的泛化性能不太可能由数据集独立的有效容量来解释。
Jun, 2017
研究过参数化网络在单个训练样本和恒等映射任务中,记忆与泛化之间的相互作用。通过正式表征单层FCNs和CNNs中的泛化,我们展示了不同架构的归纳偏见。我们的工作有助于量化和可视化感性偏见对架构选择(如深度,内核宽度和通道数量)的敏感性。
Feb, 2019
本文通过对 ResNet,Inception 和 VGG 等模型的实验验证了相干梯度假设,并提出了具有可扩展性的抑制弱梯度方向的方法,这是首次令当代的监督学习提供令人信服的概括能力证据。
Mar, 2020
本文提出了一种利用归纳偏置驱动的网络设计原则和基于层的流形正则化目标来实现神经网络学习过程中提高内存效率的框架,该框架的使用结果相对于传统学习技术具有更好的绝对性能和实证一般化误差,可以无缝地与现有的网络压缩方法相结合。
May, 2023
通过信息论分析深度学习及神经网络,研究在训练过程中神经网络获取的信息,提出了限制权值中标签噪声信息的学习算法,并提出了样本信息度量概念,探究了神经网络在非典型、模棱两可或属于代表性较弱群体的情况下的行为,导出了非平凡的泛化表现界限,并通过知识蒸馏研究,证明了数据和标签复杂度在泛化中的重要作用。该论文深入研究了神经网络的泛化机制,有益于更深层次地理解此领域的相关知识。
Jun, 2023
通过三种实验方法,我们发现记忆化现象发生在模型的少数层中,而不是最后的几层;其次,我们发现记忆化往往局限于模型的少数神经元或通道;基于这些发现,我们提出了一种新的dropout方法,通过对特定的神经元进行dropout,我们能够减少记忆化的准确性,从而减小泛化差距。
Jul, 2023
深度学习中的稳健泛化是一个重大挑战,特别是当可训练参数的数量非常大时。为了应对这一挑战,我们研究了一种可解释模型,通过分析理解广义表示,并从纪念表示中轻松区分出来。通过在模量算术任务上训练两层神经网络来研究该模型。我们证明:网络在记忆损坏标签及同时实现 100% 泛化的情况下是可能的;记忆神经元可以被识别和修剪,降低损坏数据的准确性,提高未损坏数据的准确性;正则化方法(如权重衰减、dropout 和 BatchNorm)会在优化过程中强制网络忽略损坏数据,在未损坏数据集上达到 100% 的准确性;并且这些正则化方法的效果是可以“机械解释”的:权重衰减和 dropout 强制所有神经元学习广义表示,而 BatchNorm 降低记念神经元的输出,并放大广义神经元的输出。最后,我们展示了在正则化的情况下,训练动态包含两个连续阶段:首先,在网络经历“领悟”动态过程中,达到高训练和测试准确性;第二,它通过将记忆表示逐渐抹除,从 100% 的训练准确性骤降到 100 (1-ξ)%。
Oct, 2023
本研究旨在解决深度生成模型在训练过程中记忆和再现数据点的问题,特别是在法律和隐私风险方面的关注。提出的流形记忆假设(MMH)提供了一个几何框架,从流形维度的关系分析记忆现象,系统分类记忆数据的类型,并经过实验证明该框架有效性,推动生成模型在记忆样本检测和防止方面的新工具开发。
Oct, 2024