经过精心策划的数据的自消费生成模型可证明优化人类偏好

Jun, 2024

经过精心策划的数据的自消费生成模型可证明优化人类偏好

Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences

Damien Ferbach, Quentin Bertrand, Avishek Joey Bose, Gauthier Gidel

TL;DR在本文中，我们理论上研究了数据筛选对生成模型的迭代重新训练的影响，并表明它可以看作是一种隐式偏好优化机制，通过实验证明了该过程加剧了奖励模型的偏见。

Abstract

The rapid progress in generative models has resulted in impressive leaps in generation quality, blurring the lines between synthetic and real data. Web-scale datasets are now prone to the inevitable contamination by syn

发现论文，激发创造

深度生成模型中的偏差和泛化: 一个实证研究

本文提出一个系统研究深度生成模型的偏差和泛化的框架，并通过认知心理学实验方法探讨其生成新属性和组合的特点与人类心理学的相似之处。作者发现这些模式与常用模型和结构一致。

Nov, 2018

RAFT: 用于生成式基础模型对齐的奖励排序微调方法

本文提出了一种新的框架 RAFT，它利用奖励模型和足够数量的样本将生成模型对齐，选择高质量的样本并去除那些表现不良的样本。该算法在大型语言模型和扩散模型的情况下表现良好。

Apr, 2023

利用合成数据解决数据不平衡问题：基于数据视角的基准线

通过使用合成数据作为初步步骤，SYNAuG建议在使用特定任务算法解决数据不平衡问题之前，以有效和关键的方式解决数据不平衡问题。

Aug, 2023

生成式人工智能的强化学习综述

深度生成人工智能是机器学习社区中长期关注的重要话题之一，能够影响文本生成和计算机视觉等多个应用领域。最大似然估计是训练生成模型的主要范式，通过减少模型分布和目标分布之间的差异来捕捉和近似目标数据分布。然而，该目标无法满足用户对生成模型的全部要求。增强学习作为一种竞争性选择，能够通过创建新目标以利用新信号来注入新的训练信号，具有灵活性和强大的能力，能够从多个角度遵循人类的归纳偏好，如对抗学习、手工设计规则和学习奖励模型等。因此，增强学习已成为一个热门的研究领域，在模型设计和应用方面拓展了生成人工智能的界限。虽然最近在不同应用领域存在一些调查报告，但本综述旨在提供一个高级别的综述，涵盖了广泛的应用领域，包括严格的分类和对各种模型和应用的充分覆盖。值得一提的是，本综述还调查了快速发展的大规模语言模型领域。通过展示可能解决当前模型限制并扩展生成人工智能前沿的潜在方向，我们总结了本综述。

Aug, 2023

关于迭代重新训练生成模型的稳定性

本文开发了一个框架，以严格研究在混合数据集（包括真实和合成数据）上训练生成模型对它们的稳定性的影响。通过在CIFAR10和FFHQ上迭代训练常规流和最先进的扩散模型，我们在合成和自然图像上经验验证了我们的理论。

Sep, 2023

用于生成模型训练的自校正自消耗循环

通过引入理想化的校正函数，本文旨在稳定自消耗生成模型的训练，理论结果证明了根据真实数据分布将数据点映射为更可能的方法可以使自消耗循环的稳定性呈指数级增加，我们还提出了自我校正函数，它依赖于专家知识并旨在在规模上自动近似理想化的校正器，在具有挑战性的人体运动合成任务上对自我校正自消耗循环的有效性进行了实证验证，观察到即使合成数据与真实数据的比例高达100%，也能成功避免模型崩溃。

Feb, 2024

自耗生成模型的理论理解

本文研究了在自我消耗循环中训练生成模型的新挑战，通过连续的模型生成从先前一代模型生成的真实和合成数据的混合进行递归训练。我们构建了一个理论框架，严格评估这种训练方案对未来模型学习到的数据分布的影响。具体地，我们在不同的混合训练场景下，推导出了未来模型生成的合成数据分布与原始真实数据分布之间的总变异（TV）距离的上限。我们的分析表明，在混合训练数据集大小足够大或真实数据比例足够大的条件下，可以有效控制这种距离。有趣的是，我们进一步揭示了由于合成数据量的增加而引起的阶段转变，从理论上证明了TV距离在初始上升后会在超过一个阈值点后下降。最后，我们将我们的一般结果特化到扩散模型（diffusion models），提供了关于在自我消耗循环中最佳早停策略的细微见解。

Feb, 2024

关于合成数据的等效性、可替代性和灵活性

通过实证研究，我们调查了合成数据在实际场景中的有效性，发现合成数据不仅提高了模型性能，而且在不损失性能的情况下能够替代真实数据，展示出在现实问题中采集真实数据的效率问题上合成数据的潜力，并证明了相对灵活的数据生成器对于提升模型适应性，缩小领域差距的重要性。

Mar, 2024

人工智能反向影响：生成式人工智能时代中数据污染的注意事项

人工智能生成技术和大型模型产生了现实感十足的输出，但盲目使用合成数据可能导致模型性能下降和伦理问题，因此需要平衡使用真实数据和合成数据的方法来优化结果。这篇综述研究了在生成模型中盲目整合合成数据对图像和文本模态的训练的后果，并探索了缓解这些影响的策略，旨在提供合成数据使用的全面视角，倡导平衡方法并探索在大型模型时代促进生成式人工智能技术可持续发展的实践。

May, 2024

合成训练图像的未实现承诺：使用检索的真实图像性能更好

通过对比采用生成模型生成的人工数据和来自真实数据的有针对性图像进行微调，在任务上针对性生成的合成数据被真实数据普遍匹配或超越，这表明合成图像中存在生成器伪像和不准确的任务相关视觉细节。总体而言，我们认为在使用合成数据进行训练时，检索是一个必须考虑的关键基线。

Jun, 2024