Feb, 2024

自耗生成模型的理论理解

TL;DR本文研究了在自我消耗循环中训练生成模型的新挑战,通过连续的模型生成从先前一代模型生成的真实和合成数据的混合进行递归训练。我们构建了一个理论框架,严格评估这种训练方案对未来模型学习到的数据分布的影响。具体地,我们在不同的混合训练场景下,推导出了未来模型生成的合成数据分布与原始真实数据分布之间的总变异(TV)距离的上限。我们的分析表明,在混合训练数据集大小足够大或真实数据比例足够大的条件下,可以有效控制这种距离。有趣的是,我们进一步揭示了由于合成数据量的增加而引起的阶段转变,从理论上证明了 TV 距离在初始上升后会在超过一个阈值点后下降。最后,我们将我们的一般结果特化到扩散模型(diffusion models),提供了关于在自我消耗循环中最佳早停策略的细微见解。