关于迭代重新训练生成模型的稳定性

Sep, 2023

关于迭代重新训练生成模型的稳定性

On the Stability of Iterative Retraining of Generative Models on their own Data

Quentin Bertrand, Avishek Joey Bose, Alexandre Duplessis, Marco Jiralerspong, Gauthier Gidel

TL;DR本文开发了一个框架，以严格研究在混合数据集（包括真实和合成数据）上训练生成模型对它们的稳定性的影响。通过在 CIFAR10 和 FFHQ 上迭代训练常规流和最先进的扩散模型，我们在合成和自然图像上经验验证了我们的理论。

Abstract

deep generative models have made tremendous progress in modeling complex data, often exhibiting generation quality that surpasses a typical human's ability to discern the authenticity of samples. Undeniably, a key driver of this success is enabled by the massive amounts of

deep generative models web-scale data training generative models mixed datasets stability

发现论文，激发创造

合成与真实之间的鸿沟：利用迁移学习探索稳定扩散生成数据边界

通过对于学生模型的不同层进行实验研究，本文发现学生模型的精度下降主要源于模型的最后几层，进而调查了其他因素的影响，同时结合研究成果提出了通过在最后几层上使用真实数据对合成训练的模型进行微调来改善训练数据使用效率和模型准确度之间的权衡问题。

May, 2024

分析虚假训练数据对深度学习系统性能的影响

本文深入分析了使用不同比例的真实数据和合成数据来训练计算机视觉模型对模型鲁棒性和预测质量的影响，证明使用生成对抗网络生成高质量合成数据可以减轻深度学习模型面临的挑战。

Mar, 2023

自耗生成模型的理论理解

本文研究了在自我消耗循环中训练生成模型的新挑战，通过连续的模型生成从先前一代模型生成的真实和合成数据的混合进行递归训练。我们构建了一个理论框架，严格评估这种训练方案对未来模型学习到的数据分布的影响。具体地，我们在不同的混合训练场景下，推导出了未来模型生成的合成数据分布与原始真实数据分布之间的总变异（TV）距离的上限。我们的分析表明，在混合训练数据集大小足够大或真实数据比例足够大的条件下，可以有效控制这种距离。有趣的是，我们进一步揭示了由于合成数据量的增加而引起的阶段转变，从理论上证明了 TV 距离在初始上升后会在超过一个阈值点后下降。最后，我们将我们的一般结果特化到扩散模型（diffusion models），提供了关于在自我消耗循环中最佳早停策略的细微见解。

Feb, 2024

通过生成数据集实现强健分类：让现实留给想象

本文研究了生成数据集对图像分类器自然鲁棒性的影响，发现与标准训练和流行的数据增强策略相比，使用真实数据和生成数据相结合进行训练可以提高 Imagenet 分类器的准确性和鲁棒性，同时分析了不同因素对结果的影响，并介绍了 ImageNet-G-v1 数据集。

Feb, 2023

超越模型崩溃：通过合成数据实现规模扩展需要加强

使用反馈增强合成数据可以防止模型崩溃，验证了常见的方法，如 RLHF。

Jun, 2024

合成数据，真实误差：如何（不）发布和使用合成数据

本文介绍了通过生成模型生成合成数据，并探讨了生成模型对下游机器学习任务的影响。提出了 Deep Generative Ensemble (DGE) 框架，该框架可以学习生成过程模型参数的后验分布，从而在模型训练、评估和不确定性量化方面取得了显著的改进，特别对于稀有类别和原始数据的低密度区域。

May, 2023

用于生成模型训练的自校正自消耗循环

通过引入理想化的校正函数，本文旨在稳定自消耗生成模型的训练，理论结果证明了根据真实数据分布将数据点映射为更可能的方法可以使自消耗循环的稳定性呈指数级增加，我们还提出了自我校正函数，它依赖于专家知识并旨在在规模上自动近似理想化的校正器，在具有挑战性的人体运动合成任务上对自我校正自消耗循环的有效性进行了实证验证，观察到即使合成数据与真实数据的比例高达 100%，也能成功避免模型崩溃。

Feb, 2024

多元化训练，不是微调：使用合成图像扩大视觉识别训练规模

通过在大型语言模型和 CLIP 的辅助下，使用生成模型生成合成训练图像来解决类名的歧义性、缺乏多样性的问题，并利用域适应技术和辅助批归一化来减轻领域偏移，以更好地提升模型识别性能。

Dec, 2023

生成对抗网络的 “可操控性

该论文研究了生成模型的视觉泛移能力，发现虽然目前的生成对抗网络（GAN）可以很好地拟合标准数据集，但它们仍然没有成为视觉流形的全面模型。同时，研究者还发现这些模型反映了训练数据集的偏差，并提出了一些缓解问题的技术。

Jul, 2019

闭环学习中生成模型的热力学死亡

通过研究喂给自己生成的内容以及原始训练数据集的生成模型的学习动态，本文旨在提供对 “生成闭环学习” 这一过程的洞察，揭示了没有足够外部数据时，任何非平凡的温度都会导致模型渐近退化，即生成分布要么坍缩为一小组输出，要么在一大组输出上变得均匀。

Apr, 2024