找到 NeMo: 在扩散模型中定位负责记忆的神经元

Jun, 2024

找到 NeMo: 在扩散模型中定位负责记忆的神经元

Finding NeMo: Localizing Neurons Responsible For Memorization in Diffusion Models

Dominik Hintersdorf, Lukas Struppek, Kristian Kersting, Adam Dziedzic, Franziska Boenisch

TL;DR通过定位跨注意力层中的神经元，我们引入了 NeMo 方法来解决扩散模型中的个别数据样本的记忆问题，从而避免了在推理过程中复制训练数据，增加了生成输出的多样性，并减少了私密和受版权保护数据的泄露，进而实现了更负责任的扩散模型的部署。

Abstract

diffusion models (DMs) produce very detailed and high-quality images. Their power results from extensive training on large amounts of data, usually scraped from the internet without proper attribution or consent from content creators. Unfortunately, this practice raises →

diffusion models memorization nemo privacy copyrighted data

发现论文，激发创造

扩散模型中的记忆图像共享一个可定位和删除的子空间

大规模的文本到图像扩散模型在从文本输入中生成高质量图像方面表现出色，然而研究表明它们倾向于记忆和复制训练数据，引起了版权侵犯和隐私问题。本文针对扩散模型中的记忆问题，通过剪枝特定子空间的权重提出了一种后处理方法，避免了破坏训练或推理过程，从而展示了一个实用且全面的解决记忆问题的新途径。同时展示了经剪枝的模型对于训练数据提取攻击的鲁棒性，揭示了新的解决记忆问题的可能性。

Jun, 2024

扩散模型中的记忆化

扩散模型是近年来引起重要研究兴趣的高质量样本生成方法，我们的研究旨在深入理解扩散模型的记忆行为，包括有效模型记忆的定义与影响因素的量化分析。我们的实证研究发现数据分布、模型配置和训练过程等因素对记忆行为有重要影响，并且在扩散模型中，将训练数据与随机标签进行关联显著触发记忆行为。这对扩散模型的使用者具有实际意义，并为深度生成模型的理论研究提供了线索。

Oct, 2023

神经网络可否进行本地化记忆？

通过三种实验方法，我们发现记忆化现象发生在模型的少数层中，而不是最后的几层；其次，我们发现记忆化往往局限于模型的少数神经元或通道；基于这些发现，我们提出了一种新的 dropout 方法，通过对特定的神经元进行 dropout，我们能够减少记忆化的准确性，从而减小泛化差距。

Jul, 2023

深度学习中的记忆现象：一份调查

基于深度学习和深度神经网络的记忆现象对模型泛化性、安全性和隐私造成了影响，并提出了系统性框架以及评估方法，通过综合文献回顾探索了深度神经网络记忆行为对安全隐私的影响，还介绍了由记忆引起的隐私漏洞，忽略现象，以及它们在噪声标签学习、隐私保护和模型增强等应用中的潜在机制，为加强人工智能发展并解决重要的伦理问题提供了独特的认识。

Jun, 2024

基于脑启发的分布式记忆学习，用于高效特征无关的无监督域自适应

通过分布式记忆学习机制，利用神经网络以及强化记忆的方式，提出了一种新的无梯度的快速领域适应机制，称为分布式记忆学习（DML），在跨域场景中以显著的性能提升和时间优化为特点。

Feb, 2024

深度网络内存化探究

本文研究深度学习中记忆化的作用，探讨了容量，泛化，对抗鲁棒性的联系。作者的实验表明，深度神经网络在优化噪声数据和真实数据时存在数量上的差异，但经过适当的正则化调整（如 dropout），我们可以降低其在噪声数据集上的训练性能，同时不影响在真实数据上的泛化能力。研究结果表明，数据集本身在决定记忆化程度时具有重要作用，而基于梯度优化方法的深度网络的泛化性能不太可能由数据集独立的有效容量来解释。

Jun, 2017

语言模型中可学习的隐私神经元定位

我们引入了一种创新的方法来定位 LLMs 中敏感个人身份信息 (PII) 的神经元，通过对抗训练使用可学习的二进制权重掩码来定位特定的神经元，以解决 LLMs 中 PII 的记忆机制的不清楚性，并通过定位的隐私神经元的失活来减轻 PII 风险。我们的定位算法通过定量和定性实验证明了其有效性。

May, 2024

LLM 中的本地化方法是否真正本地化记忆数据？

本研究主要研究在大型语言模型中是否可以确定负责记忆给定序列的少量神经元，并通过两种基准方法进行了评估。评估结果显示，尽管所识别的神经元不一定与单个记忆序列相关，但所有方法都展现出令人满意的定位能力，特别是基于修剪的方法。

Nov, 2023

DEPN: 检测和编辑预训练语言模型中的隐私神经元

为了有效降低预训练语言模型中的数据泄漏风险，我们提出了一个名为 DEPN 的框架来检测和编辑预训练语言模型中的隐私神经元，部分受到知识神经元和模型编辑的启发。在 DEPN 中，我们引入了一种称为隐私神经元探测器的新方法，来定位与私人信息相关的神经元，并通过将它们的激活设置为零来编辑这些检测到的隐私神经元。此外，我们还提出了一种批处理方式的隐私神经元聚合器来去除隐私信息。实验结果表明，我们的方法能够显著并有效地降低私人数据泄漏的风险，而不会损害模型的性能。此外，我们从多个角度（包括模型大小、训练时间、提示、隐私神经元分布）经验性地展示了模型记忆和隐私神经元之间的关系，从而证明了我们方法的稳健性。

Oct, 2023

神经网络中唯一私有特征的非预期记忆度量

通过对图像分类的神经网络进行实验，我们发现神经网络即使在训练数据中只出现了一次，也不经意地会记住独特的特征。我们开发了一个得分来估计模型对独特特征的敏感性，结果表明神经网络对于训练数据中罕见的隐私信息都具有风险。

Feb, 2022