超越模型崩溃:通过合成数据实现规模扩展需要加强
模型崩溃是指在使用之前训练的模型生成的合成数据训练新模型时性能下降的现象,本文通过统计模型对各种递归训练情景的影响进行了深入研究,发现当仅使用合成数据进行训练时无法避免模型崩溃,但当混合使用真实数据和合成数据时,我们提供了在合成数据量不超过一定阈值时模型崩溃可以最终避免的估计值,我们的理论结论得到了经验验证的支持。
Apr, 2024
本文探讨了生成模型在其自身生成的输出上进行训练时可能导致的模型崩溃问题,并通过理论和实证研究表明数据的积累可以缓解模型崩溃的问题。
Apr, 2024
本文开发了一个框架,以严格研究在混合数据集(包括真实和合成数据)上训练生成模型对它们的稳定性的影响。通过在 CIFAR10 和 FFHQ 上迭代训练常规流和最先进的扩散模型,我们在合成和自然图像上经验验证了我们的理论。
Sep, 2023
利用分类器对生成模型的反馈来增强静态数据集,并验证其有效性和效率,实现了在低频数据类别上的最新成果以及最糟糕分组准确性的显著提升,为有效利用最先进的文本到图像模型作为数据源,改进下游应用提供了路径。
Sep, 2023
通过 Expansive Synthesis 模型,从有限样本中生成大规模、高保真度的数据集,提供解决数据稀缺问题的鲁棒方案,为机器学习应用中的数据提供了更强可用性的途径。
Jun, 2024
通过使用大型语言模型来进行数据合成,我们提出了一种名为 “Synthesis Step by Step (S3)” 的数据合成框架,该框架通过迭代地使用大型语言模型对小型真实验证数据集上的小型模型合成数据集中的错误进行外推,从而缩小合成数据集与真实数据之间的分布差异。在多个自然语言处理任务的广泛实验中表明,我们的方法能够通过减小合成数据集与真实数据之间的差距来提高小型模型的性能,相较于 ZeroGen 和 GoldGen,我们的方法改进了 9.48% 和 2.73%,并且相较于人工标注数据训练的小型模型最多提高了 15.17%。
Oct, 2023
AI 模型规模扩大时,神经缩放定律成为预测大型模型在增加容量和原始(人工或自然)训练数据大小时改进的关键工具。然而,流行模型的广泛使用意味着在线数据和文本的生态系统将逐渐含有越来越多的合成数据。本文通过缩放定律的观点开发了一个有关模型崩溃的理论框架,发现了一系列衰变现象,包括缩放的损失、与代数数量的缩放的变化、技能的 “损失” 以及混合人工和合成数据时的理解。我们通过对一个算术任务和使用大型语言模型 Llama2 进行的文本生成的大规模实验验证了我们的理论。
Feb, 2024
合成数据生成是一种通过解决数据稀缺性和隐私问题、实现前所未有的性能而在数据科学领域引起了一场转变的生成人工智能的基石。本文介绍了用于分析的合成数据生成框架,该框架利用了统计方法在高保真度合成数据上的运用,这些数据由诸如表扩散和预训练生成转换模型等先进模型生成,并通过相关研究得到进一步的改进。通过三个案例研究:文本情感分析、结构化数据预测建模和表格数据推断,我们证明了该框架在传统方法之上的有效性,强调了合成数据生成在数据科学中的转化潜力。
Oct, 2023
通过在大型语言模型和 CLIP 的辅助下,使用生成模型生成合成训练图像来解决类名的歧义性、缺乏多样性的问题,并利用域适应技术和辅助批归一化来减轻领域偏移,以更好地提升模型识别性能。
Dec, 2023
该研究论文介绍了采用基于 grounding、过滤和分类系统的生成方法来提高合成数据的准确性,并在讽刺检测任务中对比研究了三种方法以提高准确性,评估证明 Grounding 方法更为有效,该研究提供了合成数据高保真性的一些建议。
May, 2023