Jan, 2024

合成数据生成的全面探索:一项调查

TL;DR近年来,机器学习在不同领域得到了广泛应用,但由于数据获取昂贵和隐私法规的限制,训练数据的稀缺性成为进展的阻碍。合成数据作为一种解决方案出现,但大量发布的模型和有限的概述文献给决策带来了挑战。本文调查了过去十年中 417 个合成数据生成模型,提供了模型类型、功能和改进的全面概述。我们发现模型性能和复杂性不断提高,以神经网络为基础的方法主导,除隐私保护数据生成外。计算机视觉占主导地位,GAN 是主要生成模型,而扩散模型、Transformer 和循环神经网络则在竞争。从我们的性能评估中,我们发现常见度量标准和数据集的稀缺性使得比较具有挑战性。此外,文献中忽略了培训和计算成本,需要在未来的研究中予以关注。本文为合成数据生成模型的选择提供了指南,并确定了未来探索的关键领域。