深度学习的合成数据

Sep, 2019

Synthetic Data for Deep Learning

Sergey I. Nikolenko

TL;DR本研究展示了合成数据的各种发展和应用方向，其中讨论合成数据的基本计算机视觉问题、室内外场景合成及数据应用、机器人仿真环境、合成数据在隐私相关应用方面的重要性，同时概括了如何改进和生产合成数据的替代方法。其次，介绍了合成数据转化后的真实应用存在的问题，最后，着重强调了未来在合成数据研究方面的最有潜力的方向。

Abstract

synthetic data is an increasingly popular tool for training deep learning models, especially in computer vision but also in other areas. I

synthetic data deep learning computer vision domain adaptation privacy

发现论文，激发创造

计算机视觉中合成数据增强方法的调查

这篇论文对合成数据增强技术进行了广泛评估，包括基于真实 3D 图形建模、神经风格迁移、差分神经渲染、生成对抗网络和变分自编码器等生成人工智能技术。对于每一种方法类别，我们关注重要的数据生成和增强技术、广泛的应用范围和具体的用例，以及现有限制和可能的解决方法。此外，我们总结了用于训练计算机视觉模型的常见合成数据集，强调主要特点、应用领域和支持的任务。最后，我们讨论了合成数据增强方法的有效性，并希望通过这篇详细的论文为读者提供必要的背景信息和深入了解现有方法及相关问题。

Mar, 2024

使用合成数据增广消除数据集偏差

本文探讨使用有针对性的合成数据增强 - 结合游戏引擎模拟和 sim2real 风格转移技术 - 填补视觉任务的真实数据集中的空缺。在三种不同的计算机视觉任务中（停车位检测，车道检测和单 ocular 深度估计），实证研究一致表明，将合成数据与真实数据混合训练能够显著提高交叉数据集的泛化性能。

Apr, 2020

在生产环境中构建综合数据以弥合仿真与真实世界之间的差距

合成数据用于训练深度神经网络在计算机视觉应用中的重要性，重点探讨了在生产环境中使用的合成数据生成过程以及通过不同组合方法在减少仿真与现实差距方面的改进。

Nov, 2023

探索航拍人体检测的合成数据影响

本文研究了航拍人体检测中利用合成数据来训练的方法，通过探讨实际数据、合成数据和数据池选择对合成数据的质量影响以及利用合成数据提高学习性能和域泛化能力的效果，发现了几个重要的发现，为未来研究提供了更合理的使用合成数据的方向。

May, 2024

分析合成和真实数据对物体检测性能的影响：我们实际需要多少真实数据？

本文探讨使用合成数据来代替真实数据训练深度网络的效果，分析有限真实数据的影响，使用模拟工具创建大量廉价注释合成数据，并提供设计方法论程序的见解。

Jul, 2019

自动驾驶的合成数据集：一项调查

本研究综述了合成数据集生成方法的演变，并回顾了应用于自动驾驶研究的单任务和多任务合成数据集的相关工作，讨论了其在自动驾驶相关算法测试中的作用，尤其是在可信性和安全性方面。此外，该综述还讨论了合成数据集在自动驾驶技术实际部署方面的问题，并提供了一种可能的解决方案。

Apr, 2023

分析虚假训练数据对深度学习系统性能的影响

本文深入分析了使用不同比例的真实数据和合成数据来训练计算机视觉模型对模型鲁棒性和预测质量的影响，证明使用生成对抗网络生成高质量合成数据可以减轻深度学习模型面临的挑战。

Mar, 2023

城市场景语义分割中合成数据的有效使用

本文提出了一种无需真实图像数据的方法，通过修改前景和背景类的训练方法来适应合成图像，有效地训练出了适用于城市街景和驾驶场景的图像语义分割模型。

Jul, 2018

使用合成数据训练深度人脸识别系统

本研究使用 3D 可变形面部模型，通过合成数据生成具有不同面部身份和完全控制的姿态、光照和背景的图像，观察到利用合成数据可以显著降低对真实世界图像需求，在预训练后，通过微调真实图像，合成数据与真实数据相结合的模型可获得更高的性能，而且并没有负面影响。

Feb, 2018

合成数据生成的全面探索：一项调查

近年来，机器学习在不同领域得到了广泛应用，但由于数据获取昂贵和隐私法规的限制，训练数据的稀缺性成为进展的阻碍。合成数据作为一种解决方案出现，但大量发布的模型和有限的概述文献给决策带来了挑战。本文调查了过去十年中 417 个合成数据生成模型，提供了模型类型、功能和改进的全面概述。我们发现模型性能和复杂性不断提高，以神经网络为基础的方法主导，除隐私保护数据生成外。计算机视觉占主导地位，GAN 是主要生成模型，而扩散模型、Transformer 和循环神经网络则在竞争。从我们的性能评估中，我们发现常见度量标准和数据集的稀缺性使得比较具有挑战性。此外，文献中忽略了培训和计算成本，需要在未来的研究中予以关注。本文为合成数据生成模型的选择提供了指南，并确定了未来探索的关键领域。

Jan, 2024