关于迭代重新训练生成模型的稳定性
通过对于学生模型的不同层进行实验研究,本文发现学生模型的精度下降主要源于模型的最后几层,进而调查了其他因素的影响,同时结合研究成果提出了通过在最后几层上使用真实数据对合成训练的模型进行微调来改善训练数据使用效率和模型准确度之间的权衡问题。
May, 2024
本文深入分析了使用不同比例的真实数据和合成数据来训练计算机视觉模型对模型鲁棒性和预测质量的影响,证明使用生成对抗网络生成高质量合成数据可以减轻深度学习模型面临的挑战。
Mar, 2023
本文研究了在自我消耗循环中训练生成模型的新挑战,通过连续的模型生成从先前一代模型生成的真实和合成数据的混合进行递归训练。我们构建了一个理论框架,严格评估这种训练方案对未来模型学习到的数据分布的影响。具体地,我们在不同的混合训练场景下,推导出了未来模型生成的合成数据分布与原始真实数据分布之间的总变异(TV)距离的上限。我们的分析表明,在混合训练数据集大小足够大或真实数据比例足够大的条件下,可以有效控制这种距离。有趣的是,我们进一步揭示了由于合成数据量的增加而引起的阶段转变,从理论上证明了 TV 距离在初始上升后会在超过一个阈值点后下降。最后,我们将我们的一般结果特化到扩散模型(diffusion models),提供了关于在自我消耗循环中最佳早停策略的细微见解。
Feb, 2024
本文研究了生成数据集对图像分类器自然鲁棒性的影响,发现与标准训练和流行的数据增强策略相比,使用真实数据和生成数据相结合进行训练可以提高 Imagenet 分类器的准确性和鲁棒性,同时分析了不同因素对结果的影响,并介绍了 ImageNet-G-v1 数据集。
Feb, 2023
本文介绍了通过生成模型生成合成数据,并探讨了生成模型对下游机器学习任务的影响。提出了 Deep Generative Ensemble (DGE) 框架,该框架可以学习生成过程模型参数的后验分布,从而在模型训练、评估和不确定性量化方面取得了显著的改进,特别对于稀有类别和原始数据的低密度区域。
May, 2023
通过引入理想化的校正函数,本文旨在稳定自消耗生成模型的训练,理论结果证明了根据真实数据分布将数据点映射为更可能的方法可以使自消耗循环的稳定性呈指数级增加,我们还提出了自我校正函数,它依赖于专家知识并旨在在规模上自动近似理想化的校正器,在具有挑战性的人体运动合成任务上对自我校正自消耗循环的有效性进行了实证验证,观察到即使合成数据与真实数据的比例高达 100%,也能成功避免模型崩溃。
Feb, 2024
通过在大型语言模型和 CLIP 的辅助下,使用生成模型生成合成训练图像来解决类名的歧义性、缺乏多样性的问题,并利用域适应技术和辅助批归一化来减轻领域偏移,以更好地提升模型识别性能。
Dec, 2023
该论文研究了生成模型的视觉泛移能力,发现虽然目前的生成对抗网络(GAN)可以很好地拟合标准数据集,但它们仍然没有成为视觉流形的全面模型。同时,研究者还发现这些模型反映了训练数据集的偏差,并提出了一些缓解问题的技术。
Jul, 2019
通过研究喂给自己生成的内容以及原始训练数据集的生成模型的学习动态,本文旨在提供对 “生成闭环学习” 这一过程的洞察,揭示了没有足够外部数据时,任何非平凡的温度都会导致模型渐近退化,即生成分布要么坍缩为一小组输出,要么在一大组输出上变得均匀。
Apr, 2024