自耗生成模型的理论理解

Feb, 2024

Towards Theoretical Understandings of Self-Consuming Generative Models

Shi Fu, Sen Zhang, Yingjie Wang, Xinmei Tian, Dacheng Tao

TL;DR本文研究了在自我消耗循环中训练生成模型的新挑战，通过连续的模型生成从先前一代模型生成的真实和合成数据的混合进行递归训练。我们构建了一个理论框架，严格评估这种训练方案对未来模型学习到的数据分布的影响。具体地，我们在不同的混合训练场景下，推导出了未来模型生成的合成数据分布与原始真实数据分布之间的总变异（TV）距离的上限。我们的分析表明，在混合训练数据集大小足够大或真实数据比例足够大的条件下，可以有效控制这种距离。有趣的是，我们进一步揭示了由于合成数据量的增加而引起的阶段转变，从理论上证明了 TV 距离在初始上升后会在超过一个阈值点后下降。最后，我们将我们的一般结果特化到扩散模型（diffusion models），提供了关于在自我消耗循环中最佳早停策略的细微见解。

Abstract

This paper tackles the emerging challenge of training generative models within a self-consuming loop, wherein successive generations of models are recursively trained on mixtures of real and synthetic data from p

generative models self-consuming loop data distributions training regimen diffusion models

发现论文，激发创造

用于生成模型训练的自校正自消耗循环

通过引入理想化的校正函数，本文旨在稳定自消耗生成模型的训练，理论结果证明了根据真实数据分布将数据点映射为更可能的方法可以使自消耗循环的稳定性呈指数级增加，我们还提出了自我校正函数，它依赖于专家知识并旨在在规模上自动近似理想化的校正器，在具有挑战性的人体运动合成任务上对自我校正自消耗循环的有效性进行了实证验证，观察到即使合成数据与真实数据的比例高达 100%，也能成功避免模型崩溃。

Feb, 2024

自耗生成模型疯狂前进

该论文使用最先进的生成图像模型对三种不同类型的自噬循环进行了彻底的分析和实证研究，发现如果每个世代没有足够的新真实数据，未来的生成模型的质量或多样性将逐渐降低，这种情况被称为 ' 模型自噬障碍 '（MAD）。

Jul, 2023

关于迭代重新训练生成模型的稳定性

本文开发了一个框架，以严格研究在混合数据集（包括真实和合成数据）上训练生成模型对它们的稳定性的影响。通过在 CIFAR10 和 FFHQ 上迭代训练常规流和最先进的扩散模型，我们在合成和自然图像上经验验证了我们的理论。

Sep, 2023

大型语言模型自吃训练循环的问题分析

大型语言模型的自消耗训练循环通过使用自身生成的内容训练新一代语言模型，初始会提高生成内容的质量和多样性，但经过几代之后，多样性不可避免地会逐渐下降。

Nov, 2023

闭环学习中生成模型的热力学死亡

通过研究喂给自己生成的内容以及原始训练数据集的生成模型的学习动态，本文旨在提供对 “生成闭环学习” 这一过程的洞察，揭示了没有足够外部数据时，任何非平凡的温度都会导致模型渐近退化，即生成分布要么坍缩为一小组输出，要么在一大组输出上变得均匀。

Apr, 2024

人工智能反向影响：生成式人工智能时代中数据污染的注意事项

人工智能生成技术和大型模型产生了现实感十足的输出，但盲目使用合成数据可能导致模型性能下降和伦理问题，因此需要平衡使用真实数据和合成数据的方法来优化结果。这篇综述研究了在生成模型中盲目整合合成数据对图像和文本模态的训练的后果，并探索了缓解这些影响的策略，旨在提供合成数据使用的全面视角，倡导平衡方法并探索在大型模型时代促进生成式人工智能技术可持续发展的实践。

May, 2024

合成与真实之间的鸿沟：利用迁移学习探索稳定扩散生成数据边界

通过对于学生模型的不同层进行实验研究，本文发现学生模型的精度下降主要源于模型的最后几层，进而调查了其他因素的影响，同时结合研究成果提出了通过在最后几层上使用真实数据对合成训练的模型进行微调来改善训练数据使用效率和模型准确度之间的权衡问题。

May, 2024

模型崩溃是否不可避免？通过积累真实和合成数据打破递归的诅咒

本文探讨了生成模型在其自身生成的输出上进行训练时可能导致的模型崩溃问题，并通过理论和实证研究表明数据的积累可以缓解模型崩溃的问题。

Apr, 2024

生成蒸馏下的扩散模型的持续学习

借助生成性重放的扩散模型的生成蒸馏方法，可以显着提升持续学习性能，只需适度增加计算成本。

Nov, 2023

超越模型崩溃：通过合成数据实现规模扩展需要加强

使用反馈增强合成数据可以防止模型崩溃，验证了常见的方法，如 RLHF。

Jun, 2024