使用合成数据训练神经网络是基于模型的推理

Mar, 2017

使用合成数据训练神经网络是基于模型的推理

Using Synthetic Data to Train Neural Networks is Model-Based Reasoning

Tuan Anh Le, Atilim Gunes Baydin, Robert Zinkov, Frank Wood

TL;DR本文讨论了使用合成训练数据来优化神经网络参数与近似贝叶斯模型的相关性，并展示了其在验证码破解等任务中的应用和成功实验结果，并在此基础上探讨了使用合成数据训练神经网络需要考虑的因素和如何确保模型的泛化能力。

Abstract

We draw a formal connection between using synthetic training data to optimize neural network parameters and approximate, Bayesian, model-based reasoning. In particular, training a neural network using

synthetic data neural network approximate inference captcha-breaking generalization

发现论文，激发创造

基于合成数据的贝叶斯学习基础

研究了在受到隐私或可用性限制的环境中，人工合成数据作为机器学习的工具的发展与应用，使用贝叶斯范式来描述学习过程中模型参数的更新，提出了一个基于决策理论的基于贝叶斯合成学习的新方法，比传统方法在不同的监督学习和推理问题中表现更出色。

Nov, 2020

使用合成数据训练深度网络：通过域随机化缩小现实差距

该研究提供了一种基于合成图像训练深层神经网络对象检测的系统，并探讨了领域随机化技术的重要性及其在检测 KITTI 数据集上的应用。

Apr, 2018

基于人工神经网络和合成数据的自然场景文本识别

本文提出了一个自然场景文本识别的框架，使用深度神经网络模型和合成数据训练三种不同方式的单词识别模型，能够显著提高对标准数据集的性能表现，而且不需要任何人工标记数据和零数据采集成本。

Jun, 2014

真假：通过分布匹配进行有效的训练数据合成

我们通过广泛的实验验证了我们的合成数据在各种图像分类任务中的有效性，既可以替代真实数据集，也可以作为其增强，同时也有益于挑战性任务，如超出分布的泛化和隐私保护。

Oct, 2023

分析虚假训练数据对深度学习系统性能的影响

本文深入分析了使用不同比例的真实数据和合成数据来训练计算机视觉模型对模型鲁棒性和预测质量的影响，证明使用生成对抗网络生成高质量合成数据可以减轻深度学习模型面临的挑战。

Mar, 2023

利用合成人类进行训练学习

本研究探索了使用全合成或合成增强真实数据的两种方法来解决多人二维姿势估计的问题，并研究了哪种方法更好地推广到真实数据，以及虚拟人物在训练损失中的影响。通过使用增强数据集，且不考虑训练损失中的合成数据，可以得到最佳结果。该研究还使用对抗性师生框架，发现不是所有的合成样本对训练都有同样的信息量，且信息量会随着训练阶段的不同而发生变化。

Aug, 2019

隐私保护机器学习的合成数据集生成

提出一种从原始数据集生成安全合成数据集的方法，基于预训练的深度神经网络（DNN）的批量归一化（BN）层统计信息和随机噪声进行优化来匹配原始数据的层次统计分布。该方法可以用于从头开始训练神经网络来产生合理的分类性能。

Oct, 2022

用强基准方法改进合成数据上的目标检测训练

我们提出了一种在合成数据上训练预训练目标检测器的方法，通过提取合成数据的显著信息并保留在真实图像上预训练的有用特征，结合数据增强方法和 Transformer 骨干网络，我们在 RarePlanes、DGTA-VisDrone 数据集上改进了合成数据训练的目标检测技术，并在公司内部车辆检测数据集上达到近乎完美的性能。

May, 2024

非自然语言处理：弥合合成语言与自然语言数据之间的差距

通过 “模拟到真实” 的技术，本文提出通过合成数据生成程序与训练能够准确解释这些合成数据的模型，再利用学习到的句子嵌入来定义距离度量，从而实现将自然语言映射到合成数据集的支撑上，训练出只使用合成训练数据的自然语言处理模型，其在多个领域的表现已经与使用自然语言数据训练的最先进的模型相匹配或超越。

Apr, 2020

利用合成数据解决数据不平衡问题：基于数据视角的基准线

通过使用合成数据作为初步步骤，SYNAuG 建议在使用特定任务算法解决数据不平衡问题之前，以有效和关键的方式解决数据不平衡问题。

Aug, 2023