概率深度生成模型中的记忆化
通过设计和部署生成建模竞赛来批判性地评估能够被轻松操纵的启发式度量标准,在竞赛中,我们收到了超过 11,000 个提交的模型,并提出了新的度量标准来检测意图记忆 (MiFID)。我们进一步检查了竞赛中表现最好的 1000 个模型的代码,并手动标记了不同形式的记忆,发现非故意记忆是一个严重而普遍的问题。
Jun, 2021
本文研究深度学习中记忆化的作用,探讨了容量,泛化,对抗鲁棒性的联系。作者的实验表明,深度神经网络在优化噪声数据和真实数据时存在数量上的差异,但经过适当的正则化调整(如 dropout),我们可以降低其在噪声数据集上的训练性能,同时不影响在真实数据上的泛化能力。研究结果表明,数据集本身在决定记忆化程度时具有重要作用,而基于梯度优化方法的深度网络的泛化性能不太可能由数据集独立的有效容量来解释。
Jun, 2017
扩散模型是近年来引起重要研究兴趣的高质量样本生成方法,我们的研究旨在深入理解扩散模型的记忆行为,包括有效模型记忆的定义与影响因素的量化分析。我们的实证研究发现数据分布、模型配置和训练过程等因素对记忆行为有重要影响,并且在扩散模型中,将训练数据与随机标签进行关联显著触发记忆行为。这对扩散模型的使用者具有实际意义,并为深度生成模型的理论研究提供了线索。
Oct, 2023
在这项研究中,我们统一了关于机器学习中记忆化的定义和观点,讨论了它们与模型泛化的相互作用以及这些现象对数据隐私的影响,并系统化了允许从各种机器学习学习设置中检测记忆化发生或量化记忆化的方法。最后,我们讨论了记忆化在隐私攻击、差分隐私和对抗性行为者等方面的背景。
Nov, 2023
基于深度学习和深度神经网络的记忆现象对模型泛化性、安全性和隐私造成了影响,并提出了系统性框架以及评估方法,通过综合文献回顾探索了深度神经网络记忆行为对安全隐私的影响,还介绍了由记忆引起的隐私漏洞,忽略现象,以及它们在噪声标签学习、隐私保护和模型增强等应用中的潜在机制,为加强人工智能发展并解决重要的伦理问题提供了独特的认识。
Jun, 2024
通过几何分析深度神经网络的 memorization 结构及相关特征,发现较深层的 memorization 更为显著,可以通过恢复层权重预防,同时与模型几何结构和 generalization 性能有关。
May, 2021
研究表明,深度学习模型具有记忆整个训练集的倾向,通过对对抗训练(AT)中记忆效应的探索,揭示了模型容量、收敛、泛化和特别是对抗性训练模型的鲁棒过拟合等问题,提出了一种减缓鲁棒过拟合的算法,并通过各种数据集上的广泛实验验证了该算法的有效性。
Jun, 2021
现代神经网络的成功引发了对记忆和泛化之间关系的研究:过参数化的模型能够很好地进行泛化,尽管它们能够完美地拟合(记忆)完全随机的标签。本文通过对图像分类基准上 ResNet 的记忆度量进行实证计算,全面分析了神经模型大小对记忆能力的影响,结果发现不同模型大小的训练样本表现出意想不到的多样化记忆轨迹:较大模型下大多数样本减少了记忆,而部分样本呈现帽状或者递增型记忆。此外,我们发现知识蒸馏作为一种有效且流行的模型压缩技术,往往抑制记忆,同时提高了泛化能力,尤其是对于记录递增轨迹的示例,蒸馏技术能够有效提高泛化能力。
Oct, 2023
这篇研究论文描述了大语言模型 (LMs) 如何通过增加模型容量、重复数据示例次数以及提示模型的上下文数量等因素持续增长来记忆其训练数据的程度。然而,该记忆过程会导致隐私泄露、降低数据质量并且存在不公平性问题,因此有减轻该问题的必要,尤其随着模型的规模持续增长,需要采取积极的对策。
Feb, 2022