元仿真：学习生成合成数据集

Apr, 2019

Meta-Sim: Learning to Generate Synthetic Datasets

Amlan Kar, Aayush Prakash, Ming-Yu Liu, Eric Cameracci, Justin Yuan...

TL;DRMeta-Sim 是一种生成模型，它使用概率场景语法的场景图来渲染图像并生成相应的真实标签，通过神经网络训练来缩小生成数据输出和目标数据之间的分布差距，以优化下游任务的性能以实现自动数据合成。

Abstract

Training models to high-end performance requires availability of large labeled datasets, which are expensive to get. The goal of our work is to automatically synthesize labeled datasets that are relevant for a downstream task. We propose Meta-Sim, which learns a generative model of synthetic scenes, and obtain images as well as its corresponding ground-truth

data synthesis generative models neural networks scene graphs downstream task

发现论文，激发创造

Meta-Sim2: 用于合成数据生成的场景结构无监督学习

通过元学习和强化学习技术，Meta-Sim2 可以在没有监督的情况下学习到生成数据的离散结构统计，包括对象的频率，并且使用所生成的数据训练物体探测器的性能明显优于基线模拟方法。

Aug, 2020

自我监督的真实到虚拟场景生成

本研究提出一种自监督自动场景生成技术，可用于解决合成数据的生成成本高和领域差异等问题。该方法不需要真实世界数据集的监督，通过匹配真实数据的内容和特征，能够显著提高在多个数据集和真实数据集上场景图生成任务的表现。

Nov, 2020

AutoSimulate:（快速）学习合成数据生成

通过一种新的可微分逼近目标的方法，提出了一种有效的用于生成最优合成数据的替代方法，该方法可通过优化非可微模拟器，在每个迭代中仅需一个目标评估带有小的开销，在真实测试数据集上可以以较少的训练数据生成更快的理想数据分布（高达 50 倍）并具有更高的准确率（+ 8.7％），比以前的方法更好地解决了模拟机器学习算法中大型标记数据集的生成问题。

Aug, 2020

SimGen：基于模拟器的驾驶场景生成

通过混合模拟器和现实世界的数据，SimGen 模型能够学习生成具有多样性的驾驶场景，通过新颖的级联扩散管道解决了模拟到真实世界之间的差距和多条件冲突，并在保持可控性的基础上，获得卓越的生成质量和多样性。

Jun, 2024

探索在驾驶数据合成中的生成式人工智能应用

通过三种不同的生成式人工智能方法应用驾驶模拟器中的语义标签图作为创建真实数据集的桥梁，本文比较分析了这些方法的图像质量和感知能力，产生了包括驾驶图像和自动生成的高质量注释的新合成数据集，证明了扩散式方法可以提供改进的稳定性和解决 Sim2Real 挑战的替代方法。

Apr, 2024

Task2Sim：针对有效的预训练和从合成数据的转移

本研究旨在研究利用基于图形模拟器生成的合成数据进行预训练，并使用 Task2Sim 将下游任务表示映射到最佳模拟参数，以生成最佳合成预训练数据。研究发现优化模拟参数得到的下游性能取决于任务类型，任务自适应的预训练数据比一般预训练方法表现更好，并且在训练数据受限的情况下可行。

Nov, 2021

Hypersim：一个逼真的室内全景场景综合数据集

本文介绍了一种名为 Hypersim 的、具备完整的室内场景计算机视觉理解的合成数据集，该数据集为场景、对象和像素级别提供完整的标注信息，并且评估了数据集的生成成本，并证明了使用该数据集进行预训练可以显著改善语义分割和 3D 形状预测任务的性能。

Nov, 2020

一种用于表格数据的有监督生成优化方法

合成数据生成已成为金融机构的重要课题，本研究提出了一种新的合成数据生成框架，将监督组件与元学习方法结合，为特定下游任务学习最佳混合分布的已有合成分布。

Sep, 2023

在生产环境中构建综合数据以弥合仿真与真实世界之间的差距

合成数据用于训练深度神经网络在计算机视觉应用中的重要性，重点探讨了在生产环境中使用的合成数据生成过程以及通过不同组合方法在减少仿真与现实差距方面的改进。

Nov, 2023

通过合成学习生成合成数据

本文提出了一种针对任务的合成数据生成方法，通过训练可训练的合成器网络产生有意义的样本，并与现实世界的图像相关的判别器配对来生成逼真的数据，再通过加入混合术来提高训练目标分类器的不变性，实验结果表明该方法在不同的目标网络上的应用可以显著提高检测性能。

Apr, 2019