使用合成数据训练神经网络是基于模型的推理
研究了在受到隐私或可用性限制的环境中,人工合成数据作为机器学习的工具的发展与应用,使用贝叶斯范式来描述学习过程中模型参数的更新,提出了一个基于决策理论的基于贝叶斯合成学习的新方法,比传统方法在不同的监督学习和推理问题中表现更出色。
Nov, 2020
本文提出了一个自然场景文本识别的框架,使用深度神经网络模型和合成数据训练三种不同方式的单词识别模型,能够显著提高对标准数据集的性能表现,而且不需要任何人工标记数据和零数据采集成本。
Jun, 2014
我们通过广泛的实验验证了我们的合成数据在各种图像分类任务中的有效性,既可以替代真实数据集,也可以作为其增强,同时也有益于挑战性任务,如超出分布的泛化和隐私保护。
Oct, 2023
本文深入分析了使用不同比例的真实数据和合成数据来训练计算机视觉模型对模型鲁棒性和预测质量的影响,证明使用生成对抗网络生成高质量合成数据可以减轻深度学习模型面临的挑战。
Mar, 2023
本研究探索了使用全合成或合成增强真实数据的两种方法来解决多人二维姿势估计的问题,并研究了哪种方法更好地推广到真实数据,以及虚拟人物在训练损失中的影响。通过使用增强数据集,且不考虑训练损失中的合成数据,可以得到最佳结果。该研究还使用对抗性师生框架,发现不是所有的合成样本对训练都有同样的信息量,且信息量会随着训练阶段的不同而发生变化。
Aug, 2019
提出一种从原始数据集生成安全合成数据集的方法,基于预训练的深度神经网络(DNN)的批量归一化(BN)层统计信息和随机噪声进行优化来匹配原始数据的层次统计分布。该方法可以用于从头开始训练神经网络来产生合理的分类性能。
Oct, 2022
我们提出了一种在合成数据上训练预训练目标检测器的方法,通过提取合成数据的显著信息并保留在真实图像上预训练的有用特征,结合数据增强方法和 Transformer 骨干网络,我们在 RarePlanes、DGTA-VisDrone 数据集上改进了合成数据训练的目标检测技术,并在公司内部车辆检测数据集上达到近乎完美的性能。
May, 2024
通过 “模拟到真实” 的技术,本文提出通过合成数据生成程序与训练能够准确解释这些合成数据的模型,再利用学习到的句子嵌入来定义距离度量,从而实现将自然语言映射到合成数据集的支撑上,训练出只使用合成训练数据的自然语言处理模型,其在多个领域的表现已经与使用自然语言数据训练的最先进的模型相匹配或超越。
Apr, 2020