提高机器学习合成数据的逼真度研究

MMApr, 2023

提高机器学习合成数据的逼真度研究

A Study on Improving Realism of Synthetic Data for Machine Learning

Tingwei Shen, Ganning Zhao, Suya You

TL;DR本研究着眼于深入评估和比较对于机器学习的通用合成数据的对抗训练效果，并旨在使用未标记的真实数据条件下的合成 - 真实生成模型将合成图像转化为更真实的风格，并通过定性和定量指标进行广泛的性能评估和比较。

Abstract

synthetic-to-real data translation using generative adversarial learning has achieved significant success to improve synthetic data. Yet, there are limited studies focusing on deep evaluation and comparison of

synthetic-to-real data translation generative adversarial learning adversarial training general-purpose datasets performance evaluation

发现论文，激发创造

分析虚假训练数据对深度学习系统性能的影响

本文深入分析了使用不同比例的真实数据和合成数据来训练计算机视觉模型对模型鲁棒性和预测质量的影响，证明使用生成对抗网络生成高质量合成数据可以减轻深度学习模型面临的挑战。

Mar, 2023

生成逼真的训练数据以提高人脸识别准确性

本文研究使用合成数据来增强面部数据集的可行性。我们提出了一种新颖的生成对抗网络（GAN），可以将相关身份属性与非相关身份属性区分开来。我们的 GAN 能够生成数据增强的合成图像，并且该模型可以提高面部识别模型的准确率。

Oct, 2018

真假：通过分布匹配进行有效的训练数据合成

我们通过广泛的实验验证了我们的合成数据在各种图像分类任务中的有效性，既可以替代真实数据集，也可以作为其增强，同时也有益于挑战性任务，如超出分布的泛化和隐私保护。

Oct, 2023

对抗机器学习研究中的合成数据集生成

本研究使用 CARLA 模拟器生成综合数据集，使其具有逼真的对抗性示例攻击，并使用处理和转换效果与真实世界图像相同的模拟攻击来说明其与现实的相关性。

Jul, 2022

远程感知图像中的数据增强和适应的条件生成对抗网络

使用 GAN 将给定的标记遥感图像拓展成更大的数据集并评测其对于物体检测任务的性能提升。

Aug, 2019

提高深度生成数据的效果

即使合成图像在下游图像分类任务中导致性能下降，通过使用合成图像增强真实数据可以在数据稀缺情况下提升下游分类任务的表现，内容差距是这一现象的较大部分原因，我们提出了策略来更好地利用深度生成模型中的合成图像。

Nov, 2023

对比 Syn-to-Real 泛化

本文提出了一种基于对比的从合成到真实的泛化（Contrastive Synthetic-to-Real Generalization, CSG）框架，该框架利用预训练的 ImageNet 知识防止过度拟合合成域，同时提高特征嵌入的多样性以改善泛化性能，还使用注意力池化（A-pool）来进一步提高泛化性能。研究结果表明，此方法在各种合成训练任务中展示了最新的零 - shot 域泛化性能。

Apr, 2021

公平合成数据生成

本研究提出一种通过预处理算法识别和删除偏差样本以生成更公平的合成数据的管道，可以有效地克服许多挑战，并在某些情况下提高性能。

Oct, 2022

在跨概念设置中提高合成生成图像的检测

本文探讨了在不同概念类之间泛化的挑战，并提出了一种基于质量评估模型的质量抽样方法，通过 StyleGAN2 和 Latent Diffusion 生成的图像进行实验，结果表明采用本文提出的方法可以提高合成图像检测器的检测性能。

Apr, 2023

探索在驾驶数据合成中的生成式人工智能应用

通过三种不同的生成式人工智能方法应用驾驶模拟器中的语义标签图作为创建真实数据集的桥梁，本文比较分析了这些方法的图像质量和感知能力，产生了包括驾驶图像和自动生成的高质量注释的新合成数据集，证明了扩散式方法可以提供改进的稳定性和解决 Sim2Real 挑战的替代方法。

Apr, 2024