超越模型崩溃：通过合成数据实现规模扩展需要加强

Jun, 2024

超越模型崩溃：通过合成数据实现规模扩展需要加强

Beyond Model Collapse: Scaling Up with Synthesized Data Requires Reinforcement

Yunzhen Feng, Elvis Dohmatob, Pu Yang, Francois Charton, Julia Kempe

TL;DR使用反馈增强合成数据可以防止模型崩溃，验证了常见的方法，如 RLHF。

Abstract

synthesized data from generative models is increasingly considered as an alternative to human-annotated data for fine-tuning Large Language Models. This raises concerns about →

synthesized data generative models model collapse feedback-augmented synthesized data rlhf

发现论文，激发创造

合成数据训练的糟糕程度：语言模型崩溃的统计分析

模型崩溃是指在使用之前训练的模型生成的合成数据训练新模型时性能下降的现象，本文通过统计模型对各种递归训练情景的影响进行了深入研究，发现当仅使用合成数据进行训练时无法避免模型崩溃，但当混合使用真实数据和合成数据时，我们提供了在合成数据量不超过一定阈值时模型崩溃可以最终避免的估计值，我们的理论结论得到了经验验证的支持。

Apr, 2024

模型崩溃是否不可避免？通过积累真实和合成数据打破递归的诅咒

本文探讨了生成模型在其自身生成的输出上进行训练时可能导致的模型崩溃问题，并通过理论和实证研究表明数据的积累可以缓解模型崩溃的问题。

Apr, 2024

关于迭代重新训练生成模型的稳定性

本文开发了一个框架，以严格研究在混合数据集（包括真实和合成数据）上训练生成模型对它们的稳定性的影响。通过在 CIFAR10 和 FFHQ 上迭代训练常规流和最先进的扩散模型，我们在合成和自然图像上经验验证了我们的理论。

Sep, 2023

基于反馈的不平衡分类数据合成

利用分类器对生成模型的反馈来增强静态数据集，并验证其有效性和效率，实现了在低频数据类别上的最新成果以及最糟糕分组准确性的显著提升，为有效利用最先进的文本到图像模型作为数据源，改进下游应用提供了路径。

Sep, 2023

扩展合成：从有限样本生成大规模数据集

通过 Expansive Synthesis 模型，从有限样本中生成大规模、高保真度的数据集，提供解决数据稀缺问题的鲁棒方案，为机器学习应用中的数据提供了更强可用性的途径。

Jun, 2024

迭代式数据集合成：从小型模型推测错误实现大型语言模型的数据集合成

通过使用大型语言模型来进行数据合成，我们提出了一种名为 “Synthesis Step by Step (S3)” 的数据合成框架，该框架通过迭代地使用大型语言模型对小型真实验证数据集上的小型模型合成数据集中的错误进行外推，从而缩小合成数据集与真实数据之间的分布差异。在多个自然语言处理任务的广泛实验中表明，我们的方法能够通过减小合成数据集与真实数据之间的差距来提高小型模型的性能，相较于 ZeroGen 和 GoldGen，我们的方法改进了 9.48% 和 2.73%，并且相较于人工标注数据训练的小型模型最多提高了 15.17%。

Oct, 2023

尾巴的故事：模型崩塌作为比例定律的变化

AI 模型规模扩大时，神经缩放定律成为预测大型模型在增加容量和原始（人工或自然）训练数据大小时改进的关键工具。然而，流行模型的广泛使用意味着在线数据和文本的生态系统将逐渐含有越来越多的合成数据。本文通过缩放定律的观点开发了一个有关模型崩溃的理论框架，发现了一系列衰变现象，包括缩放的损失、与代数数量的缩放的变化、技能的 “损失” 以及混合人工和合成数据时的理解。我们通过对一个算术任务和使用大型语言模型 Llama2 进行的文本生成的大规模实验验证了我们的理论。

Feb, 2024

通过合成数据扩展提升数据分析能力

合成数据生成是一种通过解决数据稀缺性和隐私问题、实现前所未有的性能而在数据科学领域引起了一场转变的生成人工智能的基石。本文介绍了用于分析的合成数据生成框架，该框架利用了统计方法在高保真度合成数据上的运用，这些数据由诸如表扩散和预训练生成转换模型等先进模型生成，并通过相关研究得到进一步的改进。通过三个案例研究：文本情感分析、结构化数据预测建模和表格数据推断，我们证明了该框架在传统方法之上的有效性，强调了合成数据生成在数据科学中的转化潜力。

Oct, 2023

多元化训练，不是微调：使用合成图像扩大视觉识别训练规模

通过在大型语言模型和 CLIP 的辅助下，使用生成模型生成合成训练图像来解决类名的歧义性、缺乏多样性的问题，并利用域适应技术和辅助批归一化来减轻领域偏移，以更好地提升模型识别性能。

Dec, 2023

使用大型语言模型生成真实的合成数据：计算社会科学案例研究

该研究论文介绍了采用基于 grounding、过滤和分类系统的生成方法来提高合成数据的准确性，并在讽刺检测任务中对比研究了三种方法以提高准确性，评估证明 Grounding 方法更为有效，该研究提供了合成数据高保真性的一些建议。

May, 2023