真假：通过分布匹配进行有效的训练数据合成

Oct, 2023

真假：通过分布匹配进行有效的训练数据合成

Real-Fake: Effective Training Data Synthesis Through Distribution Matching

Jianhao Yuan, Jie Zhang, Shuyang Sun, Philip Torr, Bo Zhao

TL;DR我们通过广泛的实验验证了我们的合成数据在各种图像分类任务中的有效性，既可以替代真实数据集，也可以作为其增强，同时也有益于挑战性任务，如超出分布的泛化和隐私保护。

Abstract

synthetic training data has gained prominence in numerous learning tasks and scenarios, offering advantages such as dataset augmentation, generalization evaluation, and →

synthetic training data dataset augmentation generalization evaluation privacy preservation deep models

发现论文，激发创造

分析虚假训练数据对深度学习系统性能的影响

本文深入分析了使用不同比例的真实数据和合成数据来训练计算机视觉模型对模型鲁棒性和预测质量的影响，证明使用生成对抗网络生成高质量合成数据可以减轻深度学习模型面临的挑战。

Mar, 2023

提高机器学习合成数据的逼真度研究

本研究着眼于深入评估和比较对于机器学习的通用合成数据的对抗训练效果，并旨在使用未标记的真实数据条件下的合成 - 真实生成模型将合成图像转化为更真实的风格，并通过定性和定量指标进行广泛的性能评估和比较。

Apr, 2023

深度学习的合成数据

本研究展示了合成数据的各种发展和应用方向，其中讨论合成数据的基本计算机视觉问题、室内外场景合成及数据应用、机器人仿真环境、合成数据在隐私相关应用方面的重要性，同时概括了如何改进和生产合成数据的替代方法。其次，介绍了合成数据转化后的真实应用存在的问题，最后，着重强调了未来在合成数据研究方面的最有潜力的方向。

Sep, 2019

分析合成和真实数据对物体检测性能的影响：我们实际需要多少真实数据？

本文探讨使用合成数据来代替真实数据训练深度网络的效果，分析有限真实数据的影响，使用模拟工具创建大量廉价注释合成数据，并提供设计方法论程序的见解。

Jul, 2019

探索航拍人体检测的合成数据影响

本文研究了航拍人体检测中利用合成数据来训练的方法，通过探讨实际数据、合成数据和数据池选择对合成数据的质量影响以及利用合成数据提高学习性能和域泛化能力的效果，发现了几个重要的发现，为未来研究提供了更合理的使用合成数据的方向。

May, 2024

使用合成数据训练深度人脸识别系统

本研究使用 3D 可变形面部模型，通过合成数据生成具有不同面部身份和完全控制的姿态、光照和背景的图像，观察到利用合成数据可以显著降低对真实世界图像需求，在预训练后，通过微调真实图像，合成数据与真实数据相结合的模型可获得更高的性能，而且并没有负面影响。

Feb, 2018

使用合成数据增广消除数据集偏差

本文探讨使用有针对性的合成数据增强 - 结合游戏引擎模拟和 sim2real 风格转移技术 - 填补视觉任务的真实数据集中的空缺。在三种不同的计算机视觉任务中（停车位检测，车道检测和单 ocular 深度估计），实证研究一致表明，将合成数据与真实数据混合训练能够显著提高交叉数据集的泛化性能。

Apr, 2020

语言模型生成的合成数据的最佳实践和经验教训

人工智能模型的成功依赖于大规模、多样化、高质量的数据集的可用性，而由于数据稀缺、隐私问题和高成本，获取这些数据集可能具有挑战性。合成数据作为一种有前景的解决方案出现，通过生成模仿真实世界模式的人工数据。本文提供了合成数据研究的概述，并讨论了其应用、挑战和未来方向。我们通过先前研究中的实证证据来展示其有效性，并强调确保其真实性、保真性和无偏性的重要性。我们强调了在使用合成数据构建更强大、包容性和可信赖的语言模型时的责任使用的需求。

Apr, 2024

合成与真实之间的鸿沟：利用迁移学习探索稳定扩散生成数据边界

通过对于学生模型的不同层进行实验研究，本文发现学生模型的精度下降主要源于模型的最后几层，进而调查了其他因素的影响，同时结合研究成果提出了通过在最后几层上使用真实数据对合成训练的模型进行微调来改善训练数据使用效率和模型准确度之间的权衡问题。

May, 2024

关于合成数据的等效性、可替代性和灵活性

通过实证研究，我们调查了合成数据在实际场景中的有效性，发现合成数据不仅提高了模型性能，而且在不损失性能的情况下能够替代真实数据，展示出在现实问题中采集真实数据的效率问题上合成数据的潜力，并证明了相对灵活的数据生成器对于提升模型适应性，缩小领域差距的重要性。

Mar, 2024