关于合成数据的等效性、可替代性和灵活性
我们通过广泛的实验验证了我们的合成数据在各种图像分类任务中的有效性,既可以替代真实数据集,也可以作为其增强,同时也有益于挑战性任务,如超出分布的泛化和隐私保护。
Oct, 2023
本文研究了航拍人体检测中利用合成数据来训练的方法,通过探讨实际数据、合成数据和数据池选择对合成数据的质量影响以及利用合成数据提高学习性能和域泛化能力的效果,发现了几个重要的发现,为未来研究提供了更合理的使用合成数据的方向。
May, 2024
本研究旨在建立使用合成数据训练的模型在偏见和公平之间的权衡,并研究了合成数据生成技术的变体,包括差分隐私生成方案,通过实验表明,合成数据训练的模型存在不同程度的偏差影响,且生成的特征不相关的技术表现良好。该研究有助于数据科学实践者理解合成数据的使用中的偏见。
May, 2021
人工智能模型的成功依赖于大规模、多样化、高质量的数据集的可用性,而由于数据稀缺、隐私问题和高成本,获取这些数据集可能具有挑战性。合成数据作为一种有前景的解决方案出现,通过生成模仿真实世界模式的人工数据。本文提供了合成数据研究的概述,并讨论了其应用、挑战和未来方向。我们通过先前研究中的实证证据来展示其有效性,并强调确保其真实性、保真性和无偏性的重要性。我们强调了在使用合成数据构建更强大、包容性和可信赖的语言模型时的责任使用的需求。
Apr, 2024
本研究展示了合成数据的各种发展和应用方向,其中讨论合成数据的基本计算机视觉问题、室内外场景合成及数据应用、机器人仿真环境、合成数据在隐私相关应用方面的重要性,同时概括了如何改进和生产合成数据的替代方法。其次,介绍了合成数据转化后的真实应用存在的问题,最后,着重强调了未来在合成数据研究方面的最有潜力的方向。
Sep, 2019
本研究使用 3D 可变形面部模型,通过合成数据生成具有不同面部身份和完全控制的姿态、光照和背景的图像,观察到利用合成数据可以显著降低对真实世界图像需求,在预训练后,通过微调真实图像,合成数据与真实数据相结合的模型可获得更高的性能,而且并没有负面影响。
Feb, 2018
合成数据用于训练深度神经网络在计算机视觉应用中的重要性,重点探讨了在生产环境中使用的合成数据生成过程以及通过不同组合方法在减少仿真与现实差距方面的改进。
Nov, 2023
本文探讨使用有针对性的合成数据增强 - 结合游戏引擎模拟和 sim2real 风格转移技术 - 填补视觉任务的真实数据集中的空缺。在三种不同的计算机视觉任务中(停车位检测,车道检测和单 ocular 深度估计),实证研究一致表明,将合成数据与真实数据混合训练能够显著提高交叉数据集的泛化性能。
Apr, 2020
评估机器学习模型在多样化和少数群体上的性能对于确保公平和可靠的实际应用至关重要。本研究引入了一种深度生成建模框架 3S Testing,通过为小型子群生成合成测试集并模拟分布偏移,促进模型评估。实验证明,3S Testing 在估计少数群体和可能的分布偏移的模型性能方面优于传统基准,包括仅使用真实测试数据,而且 3S 的性能估计还提供了区间,相对于现有方法,具有更好的准确性。总的来说,这些结果引发了一个问题,是否需要从有限的真实测试数据转向合成测试数据的新方法。
Oct, 2023