有限数据下的图像合成:调查与分类
研究了少量样本学习的一个解决方案,通过模拟数据来扩充现有训练数据,并应用于动物物种分类。研究结果显示,使用模拟数据可以大幅降低对稀有分类的误分类率,并且随着模拟数据量的增加,目标分类的准确性也随之提高,同时高变化的模拟数据提供了最大的性能提升。
Apr, 2019
利用分类器对生成模型的反馈来增强静态数据集,并验证其有效性和效率,实现了在低频数据类别上的最新成果以及最糟糕分组准确性的显著提升,为有效利用最先进的文本到图像模型作为数据源,改进下游应用提供了路径。
Sep, 2023
近年来,机器学习在不同领域得到了广泛应用,但由于数据获取昂贵和隐私法规的限制,训练数据的稀缺性成为进展的阻碍。合成数据作为一种解决方案出现,但大量发布的模型和有限的概述文献给决策带来了挑战。本文调查了过去十年中 417 个合成数据生成模型,提供了模型类型、功能和改进的全面概述。我们发现模型性能和复杂性不断提高,以神经网络为基础的方法主导,除隐私保护数据生成外。计算机视觉占主导地位,GAN 是主要生成模型,而扩散模型、Transformer 和循环神经网络则在竞争。从我们的性能评估中,我们发现常见度量标准和数据集的稀缺性使得比较具有挑战性。此外,文献中忽略了培训和计算成本,需要在未来的研究中予以关注。本文为合成数据生成模型的选择提供了指南,并确定了未来探索的关键领域。
Jan, 2024
本研究展示了合成数据的各种发展和应用方向,其中讨论合成数据的基本计算机视觉问题、室内外场景合成及数据应用、机器人仿真环境、合成数据在隐私相关应用方面的重要性,同时概括了如何改进和生产合成数据的替代方法。其次,介绍了合成数据转化后的真实应用存在的问题,最后,着重强调了未来在合成数据研究方面的最有潜力的方向。
Sep, 2019
这篇论文旨在通过提出一种基于合成数据生成的通用工作流程的组织方式,突出现有研究中的差距,并概述未来研究的前景,以引导学术和工业界更深入、更系统地探索基于大型语言模型驱动的合成数据生成的能力和应用。
Jun, 2024
我们通过广泛的实验验证了我们的合成数据在各种图像分类任务中的有效性,既可以替代真实数据集,也可以作为其增强,同时也有益于挑战性任务,如超出分布的泛化和隐私保护。
Oct, 2023
通过 Expansive Synthesis 模型,从有限样本中生成大规模、高保真度的数据集,提供解决数据稀缺问题的鲁棒方案,为机器学习应用中的数据提供了更强可用性的途径。
Jun, 2024
这篇论文对合成数据增强技术进行了广泛评估,包括基于真实 3D 图形建模、神经风格迁移、差分神经渲染、生成对抗网络和变分自编码器等生成人工智能技术。对于每一种方法类别,我们关注重要的数据生成和增强技术、广泛的应用范围和具体的用例,以及现有限制和可能的解决方法。此外,我们总结了用于训练计算机视觉模型的常见合成数据集,强调主要特点、应用领域和支持的任务。最后,我们讨论了合成数据增强方法的有效性,并希望通过这篇详细的论文为读者提供必要的背景信息和深入了解现有方法及相关问题。
Mar, 2024
该研究提出了一种新的基于 Textual Inversion 的图像合成流程,利用生成的图像填充 real-world 数据不平衡情况,该方法在长尾识别方面取得了最先进的结果。
Jun, 2023
本文研究了在医学影像方面采用生成对抗网络(GANs)合成图像作为深度学习的训练数据来替代难以获取的真实数据集的可行性,同时探讨使用多个 GANs 以提高生成数据的差异性在数码病理学方面的应用。
Apr, 2021