一种新的算法能在极度缺乏真实世界数据的条件下生成用于训练机器学习模型的数据

May, 2023

A novel algorithm can generate data to train machine learning models in conditions of extreme scarcity of real world data

Olivier Niel

TL;DR使用基因算法生成的大规模人工数据集，可以用于训练机器学习模型，以应对真实世界数据的极端稀缺或成本或数据敏感性等问题。

Abstract

training machine learning models requires large datasets. However, collecting, curating, and operating large and complex sets of real world data<

发现论文，激发创造

本文研究了生成数据集对图像分类器自然鲁棒性的影响，发现与标准训练和流行的数据增强策略相比，使用真实数据和生成数据相结合进行训练可以提高 Imagenet 分类器的准确性和鲁棒性，同时分析了不同因素对结果的影响，并介绍了 ImageNet-G-v1 数据集。

Feb, 2023

利用生成网络产生的图像数据进行机器学习分类器的训练，本文提出了三种不同阶段的技术减少随机产生图像训练的不足，将其在 ImageNet 数据集上进行了检测，并相对于在实际数据上训练得到的分类器提供鼓舞人心的结果。

Nov, 2019

本文深入分析了使用不同比例的真实数据和合成数据来训练计算机视觉模型对模型鲁棒性和预测质量的影响，证明使用生成对抗网络生成高质量合成数据可以减轻深度学习模型面临的挑战。

Mar, 2023

本文提出了一种弱监督算法来克服深度生成模型中的数据集偏差，该方法通过额外的小型未标记参考数据集作为监督信号来探测现有数据集中的偏差，并学习生成模型。实验结果表明，该方法降低了基于潜在因素的偏差达到了高达 34.6％，在同时使用基于生成对抗网络的图像生成的情况下，数据效率显著提高。

Oct, 2019

提出一种从原始数据集生成安全合成数据集的方法，基于预训练的深度神经网络（DNN）的批量归一化（BN）层统计信息和随机噪声进行优化来匹配原始数据的层次统计分布。该方法可以用于从头开始训练神经网络来产生合理的分类性能。

Oct, 2022

本文探讨使用有针对性的合成数据增强 - 结合游戏引擎模拟和 sim2real 风格转移技术 - 填补视觉任务的真实数据集中的空缺。在三种不同的计算机视觉任务中（停车位检测，车道检测和单 ocular 深度估计），实证研究一致表明，将合成数据与真实数据混合训练能够显著提高交叉数据集的泛化性能。

Apr, 2020

本研究使用最先进的合成数据生成方法并对在营养学领域的特定用例中生成的数据进行深入的质量分析，展示了对合成数据进行仔细分析的必要性，并通过扩展方法，全面分析从训练模型中抽样的效果，从而在所选择的用例中基本复现了重要的真实世界分析结果。

May, 2023

利用潜在扩散模型生成皮肤病图像的研究表明，通过合成数据训练模型可以在数据有限的情况下提高性能，但合成数据与真实数据相比仍然有较小的性能增益，因此收集多样的真实数据仍是提升医疗人工智能算法的重要步骤。

Aug, 2023

利用生成对抗网络产生保护隐私的人造数据，限制潜在的隐私泄露，且成功地在此数据上训练和验证机器学习模型。

Mar, 2018

本研究提出一种通过预处理算法识别和删除偏差样本以生成更公平的合成数据的管道，可以有效地克服许多挑战，并在某些情况下提高性能。

Oct, 2022