关于合成数据的等效性、可替代性和灵活性

Mar, 2024

关于合成数据的等效性、可替代性和灵活性

On the Equivalency, Substitutability, and Flexibility of Synthetic Data

Che-Jui Chang, Danrui Li, Seonghyeon Moon, Mubbasir Kapadia

TL;DR通过实证研究，我们调查了合成数据在实际场景中的有效性，发现合成数据不仅提高了模型性能，而且在不损失性能的情况下能够替代真实数据，展示出在现实问题中采集真实数据的效率问题上合成数据的潜力，并证明了相对灵活的数据生成器对于提升模型适应性，缩小领域差距的重要性。

Abstract

We study, from an empirical standpoint, the efficacy of synthetic data in real-world scenarios. Leveraging synthetic data for training

synthetic data perception models real-world scenarios data generation domain gaps

发现论文，激发创造

真假：通过分布匹配进行有效的训练数据合成

我们通过广泛的实验验证了我们的合成数据在各种图像分类任务中的有效性，既可以替代真实数据集，也可以作为其增强，同时也有益于挑战性任务，如超出分布的泛化和隐私保护。

Oct, 2023

探索航拍人体检测的合成数据影响

本文研究了航拍人体检测中利用合成数据来训练的方法，通过探讨实际数据、合成数据和数据池选择对合成数据的质量影响以及利用合成数据提高学习性能和域泛化能力的效果，发现了几个重要的发现，为未来研究提供了更合理的使用合成数据的方向。

May, 2024

从真实数据到合成数据的转换：量化模型中的偏差

本研究旨在建立使用合成数据训练的模型在偏见和公平之间的权衡，并研究了合成数据生成技术的变体，包括差分隐私生成方案，通过实验表明，合成数据训练的模型存在不同程度的偏差影响，且生成的特征不相关的技术表现良好。该研究有助于数据科学实践者理解合成数据的使用中的偏见。

May, 2021

语言模型生成的合成数据的最佳实践和经验教训

人工智能模型的成功依赖于大规模、多样化、高质量的数据集的可用性，而由于数据稀缺、隐私问题和高成本，获取这些数据集可能具有挑战性。合成数据作为一种有前景的解决方案出现，通过生成模仿真实世界模式的人工数据。本文提供了合成数据研究的概述，并讨论了其应用、挑战和未来方向。我们通过先前研究中的实证证据来展示其有效性，并强调确保其真实性、保真性和无偏性的重要性。我们强调了在使用合成数据构建更强大、包容性和可信赖的语言模型时的责任使用的需求。

Apr, 2024

深度学习的合成数据

本研究展示了合成数据的各种发展和应用方向，其中讨论合成数据的基本计算机视觉问题、室内外场景合成及数据应用、机器人仿真环境、合成数据在隐私相关应用方面的重要性，同时概括了如何改进和生产合成数据的替代方法。其次，介绍了合成数据转化后的真实应用存在的问题，最后，着重强调了未来在合成数据研究方面的最有潜力的方向。

Sep, 2019

使用合成数据训练深度人脸识别系统

本研究使用 3D 可变形面部模型，通过合成数据生成具有不同面部身份和完全控制的姿态、光照和背景的图像，观察到利用合成数据可以显著降低对真实世界图像需求，在预训练后，通过微调真实图像，合成数据与真实数据相结合的模型可获得更高的性能，而且并没有负面影响。

Feb, 2018

在生产环境中构建综合数据以弥合仿真与真实世界之间的差距

合成数据用于训练深度神经网络在计算机视觉应用中的重要性，重点探讨了在生产环境中使用的合成数据生成过程以及通过不同组合方法在减少仿真与现实差距方面的改进。

Nov, 2023

使用合成数据增广消除数据集偏差

本文探讨使用有针对性的合成数据增强 - 结合游戏引擎模拟和 sim2real 风格转移技术 - 填补视觉任务的真实数据集中的空缺。在三种不同的计算机视觉任务中（停车位检测，车道检测和单 ocular 深度估计），实证研究一致表明，将合成数据与真实数据混合训练能够显著提高交叉数据集的泛化性能。

Apr, 2020

使用合成数据训练目标检测模型的分析

本文研究使用合成数据进行物体检测的方法及其性能，实验结果给出了使用合成数据的基本指导原则，并对比了不同训练技术。

Nov, 2022

能否信任你的模型评估？通过合成测试数据提升模型评估

评估机器学习模型在多样化和少数群体上的性能对于确保公平和可靠的实际应用至关重要。本研究引入了一种深度生成建模框架 3S Testing，通过为小型子群生成合成测试集并模拟分布偏移，促进模型评估。实验证明，3S Testing 在估计少数群体和可能的分布偏移的模型性能方面优于传统基准，包括仅使用真实测试数据，而且 3S 的性能估计还提供了区间，相对于现有方法，具有更好的准确性。总的来说，这些结果引发了一个问题，是否需要从有限的真实测试数据转向合成测试数据的新方法。

Oct, 2023