关于训练样本记忆的研究：大规模竞赛生成模型评测的经验教训

KDDJun, 2021

关于训练样本记忆的研究：大规模竞赛生成模型评测的经验教训

On Training Sample Memorization: Lessons from Benchmarking Generative Modeling with a Large-scale Competition

Ching-Yuan Bai, Hsuan-Tien Lin, Colin Raffel, Wendy Chih-wen Kan

TL;DR通过设计和部署生成建模竞赛来批判性地评估能够被轻松操纵的启发式度量标准，在竞赛中，我们收到了超过 11,000 个提交的模型，并提出了新的度量标准来检测意图记忆 (MiFID)。我们进一步检查了竞赛中表现最好的 1000 个模型的代码，并手动标记了不同形式的记忆，发现非故意记忆是一个严重而普遍的问题。

Abstract

Many recent developments on generative models for natural images have relied on heuristically-motivated metrics that can be easily gamed by memorizing a small sample from the true distribution or training a model

generative models metrics memorization perceptual quality competition

发现论文，激发创造

揭示生成模型评估指标的缺陷及其不公平对待传播模型

本研究旨在系统研究各种基于图像的生成模型，通过在人类感知上度量图像逼真度，发现现有指标与人类感知存在巨大差距；同时也发现现有指标无法适当检测到模型对数据的记忆现象；针对这些问题，我们提出了一种更可靠的特征提取器，并且释放了全部生成的图像数据集、人类评估数据以及计算 16 种公共指标的模块化库，以便更好地促进生成模型的发展和评估。

Jun, 2023

概率深度生成模型中的记忆化

该论文研究了深度生成模型中可能出现的记忆问题，提供了一种衡量记忆现象的方式，并探讨了限制记忆的几种策略。

Jun, 2021

扩散模型中的记忆化

扩散模型是近年来引起重要研究兴趣的高质量样本生成方法，我们的研究旨在深入理解扩散模型的记忆行为，包括有效模型记忆的定义与影响因素的量化分析。我们的实证研究发现数据分布、模型配置和训练过程等因素对记忆行为有重要影响，并且在扩散模型中，将训练数据与随机标签进行关联显著触发记忆行为。这对扩散模型的使用者具有实际意义，并为深度生成模型的理论研究提供了线索。

Oct, 2023

文本到图像扩散模型中的记忆化分析实践

对文本引导的图像生成模型进行了记忆化分析，提出三个必要条件进行定量分析，并利用反演技术验证目标图像的安全性，同时对稳定扩散模型进行了有效性实验证明。

May, 2024

MemControl：通过自动参数选择缓解医学扩散模型中的记忆化

在医学图像生成领域，我们提出了一个双层优化框架，通过利用记忆和生成质量指标作为奖励，指导自动参数选择，并成功地确定了最佳参数集来满足生成和记忆权衡。我们的实验结果表明，我们的框架在更新模型参数的同时，将模型参数的数量降至仅为 0.019%，在训练时有效地减轻了过度记忆问题，并且这些学习到的策略可以在不同的数据集和领域中得到应用。

May, 2024

文本图像生成模型中（非）预期记忆的理解

多模态机器学习中的文本到图像模型，如 Stable Diffusion 和 DALL-E 3，以将文本转化为详细图像而变得重要。本文介绍了一种专门针对文本到图像模型的记忆定义，并根据用户期望将其分为三种不同类型。我们对意图记忆和非意图记忆之间的微妙差异进行了详细研究，并强调在模型输出的生成质量和用户隐私之间平衡的重要性。通过使用 Stable Diffusion 模型，我们提供了示例来验证我们的记忆定义并阐明其应用。

Dec, 2023

探究医学图像合成中 3D 潜在扩散模型中的数据记忆

研究了生成潜在扩散模型在医疗成像数据生成方面的应用，评估了其对敏感病人培训数据的记忆能力并提出了缓解记忆的策略。

Jul, 2023

内存触发器：通过词级重复揭示文本到图像生成模型中的记忆化

该研究聚焦于扩散模型中两种不同而未被充分研究的重复现象，即在扩散模型中的冗余复制，通过两个案例研究探讨了这些现象及其影响，旨在对生成模型在各种应用中进行更安全、更负责任的使用做出贡献。

Dec, 2023

大型语言模型中的紧急和可预测记忆

通过对 Pythia 模型套件的记忆行为进行度量和分析，发现中间检查点是模型记忆行为的更好预测因素，同时提供了有关模型和数据记忆得分分布的新颖发现

Apr, 2023

机器学习中的记忆化

在这项研究中，我们统一了关于机器学习中记忆化的定义和观点，讨论了它们与模型泛化的相互作用以及这些现象对数据隐私的影响，并系统化了允许从各种机器学习学习设置中检测记忆化发生或量化记忆化的方法。最后，我们讨论了记忆化在隐私攻击、差分隐私和对抗性行为者等方面的背景。

Nov, 2023