基于合成数据的贝叶斯学习基础

Nov, 2020

Foundations of Bayesian Learning from Synthetic Data

Harrison Wilde, Jack Jewson, Sebastian Vollmer, Chris Holmes

TL;DR研究了在受到隐私或可用性限制的环境中，人工合成数据作为机器学习的工具的发展与应用，使用贝叶斯范式来描述学习过程中模型参数的更新，提出了一个基于决策理论的基于贝叶斯合成学习的新方法，比传统方法在不同的监督学习和推理问题中表现更出色。

Abstract

There is significant growth and interest in the use of synthetic data as an enabler for machine learning in environments where the release of real data is restricted due to →

synthetic data machine learning privacy bayesian paradigm supervised learning

发现论文，激发创造

使用合成数据训练神经网络是基于模型的推理

本文讨论了使用合成训练数据来优化神经网络参数与近似贝叶斯模型的相关性，并展示了其在验证码破解等任务中的应用和成功实验结果，并在此基础上探讨了使用合成数据训练神经网络需要考虑的因素和如何确保模型的泛化能力。

Mar, 2017

合成数据：能否信任统计估计器？

在研究中，我们强调了推论效用的重要性，并提供了反对从合成数据（处理这些数据就好像它们是真实观察到的一样）进行天真推断的实证证据，我们认为即使估计是无偏的，阳性结果的率（类型 1 错误）将会不可接受地高，一个原因是低估了真实标准误差，它可能会随着更大样本量而逐渐增加，导致收敛较慢。这对于深度生成模型尤其是一个问题。在发布合成数据之前，开发针对这样的数据的统计推断工具至关重要。

Dec, 2023

通过合成数据扩展提升数据分析能力

合成数据生成是一种通过解决数据稀缺性和隐私问题、实现前所未有的性能而在数据科学领域引起了一场转变的生成人工智能的基石。本文介绍了用于分析的合成数据生成框架，该框架利用了统计方法在高保真度合成数据上的运用，这些数据由诸如表扩散和预训练生成转换模型等先进模型生成，并通过相关研究得到进一步的改进。通过三个案例研究：文本情感分析、结构化数据预测建模和表格数据推断，我们证明了该框架在传统方法之上的有效性，强调了合成数据生成在数据科学中的转化潜力。

Oct, 2023

语言模型生成的合成数据的最佳实践和经验教训

人工智能模型的成功依赖于大规模、多样化、高质量的数据集的可用性，而由于数据稀缺、隐私问题和高成本，获取这些数据集可能具有挑战性。合成数据作为一种有前景的解决方案出现，通过生成模仿真实世界模式的人工数据。本文提供了合成数据研究的概述，并讨论了其应用、挑战和未来方向。我们通过先前研究中的实证证据来展示其有效性，并强调确保其真实性、保真性和无偏性的重要性。我们强调了在使用合成数据构建更强大、包容性和可信赖的语言模型时的责任使用的需求。

Apr, 2024

从真实数据到合成数据的转换：量化模型中的偏差

本研究旨在建立使用合成数据训练的模型在偏见和公平之间的权衡，并研究了合成数据生成技术的变体，包括差分隐私生成方案，通过实验表明，合成数据训练的模型存在不同程度的偏差影响，且生成的特征不相关的技术表现良好。该研究有助于数据科学实践者理解合成数据的使用中的偏见。

May, 2021

超越隐私：合成数据的机遇与挑战

本文探讨生成模型产生的合成数据可能成为机器学习领域的主导力量，可以创造更公平的数据、进行数据增强和模拟，尤其是在 ChatGPT 生成的文本方面。然而，在使用合成数据时，社区需要克服许多基本的挑战，其中最重要的是量化我们能够信任的查找或预测的程度。

Apr, 2023

合成数据，真实误差：如何（不）发布和使用合成数据

本文介绍了通过生成模型生成合成数据，并探讨了生成模型对下游机器学习任务的影响。提出了 Deep Generative Ensemble (DGE) 框架，该框架可以学习生成过程模型参数的后验分布，从而在模型训练、评估和不确定性量化方面取得了显著的改进，特别对于稀有类别和原始数据的低密度区域。

May, 2023

深度学习的合成数据

本研究展示了合成数据的各种发展和应用方向，其中讨论合成数据的基本计算机视觉问题、室内外场景合成及数据应用、机器人仿真环境、合成数据在隐私相关应用方面的重要性，同时概括了如何改进和生产合成数据的替代方法。其次，介绍了合成数据转化后的真实应用存在的问题，最后，着重强调了未来在合成数据研究方面的最有潜力的方向。

Sep, 2019

真假：通过分布匹配进行有效的训练数据合成

我们通过广泛的实验验证了我们的合成数据在各种图像分类任务中的有效性，既可以替代真实数据集，也可以作为其增强，同时也有益于挑战性任务，如超出分布的泛化和隐私保护。

Oct, 2023

利用半监督学习开发合成数据以处理小规模和不平衡数据集

本文研究了通过模式的凸组合生成合成数据以及在半监督学习框架中利用这些数据作为无监督信息的效果，以支持小的高维度数据集和不平衡学习问题，而无需标记合成示例。作者在 53 个二元分类数据集上进行实验，结果表明该方法支持半监督学习中的聚类假设，对于小型高维度数据集和不平衡学习问题表现出色。

Mar, 2019