什么是合成数据？好的，坏的和丑陋的

Mar, 2023

什么是合成数据？好的，坏的和丑陋的

What Is Synthetic Data? The Good, The Bad, and The Ugly

Emiliano De Cristofaro

TL;DR介绍了合成数据的定义、用途、隐私挑战和限制，探讨了其作为隐私增强技术的潜力。

Abstract

Sharing data can often enable compelling applications and analytics. However, more often than not, valuable datasets contain information of sensitive nature, and thus sharing them can endanger the privacy of users and organizations. A possible alternative gaining momentum in the resear

synthetic data privacy data sharing artificially generated datasets privacy-enhancing

发现论文，激发创造

使用合成数据训练 AI 模型：可持续发展的机遇与风险

研究了合成数据的政策，包括创建、利用和传播。必须在保护隐私和数据的可用性之间找到平衡，并制定标准化准则来应对合成数据的挑战。

Aug, 2023

超越隐私：合成数据的机遇与挑战

本文探讨生成模型产生的合成数据可能成为机器学习领域的主导力量，可以创造更公平的数据、进行数据增强和模拟，尤其是在 ChatGPT 生成的文本方面。然而，在使用合成数据时，社区需要克服许多基本的挑战，其中最重要的是量化我们能够信任的查找或预测的程度。

Apr, 2023

合成数据 -- 什么、为什么和如何？

本文介绍了合成数据技术及其隐私保护方面的现状，以及相关工具的使用，强调了其细微处理中容易被忽略的方面。

May, 2022

合成数据 -- 匿名化之地普通日

评估了现有生成模型绘制的合成数据的隐私保护优势，发现与传统的匿名化技术相比，其提供的隐私保护水平无法预测且数据效用低下，并不存在更好的隐私保护与数据效用均衡的解决方案。

Nov, 2020

合成健康数据概述

深度生成模型扩大了创建逼真合成健康数据集的潜力，但是仍然存在许多问题和挑战，包括如何评估合成数据集与原始真实数据集的相似性和预测效果，以及分享时的隐私风险。本文概述了合成健康数据领域的现状，包括生成和评估方法与工具，实际应用示例，监管和伦理环境，数据访问和治理选项，以及未来发展机会。

Jan, 2024

测量用于竞赛的合成数据的质量

通过研究算法相对性能，本文讨论如何生成保护数据隐私的合成数据，以解决共享数据所带来的隐私问题。

Jun, 2018

人工智能中的合成数据：挑战、应用和伦理影响

在快速发展的人工智能领域中，合成数据集的创建和利用日益重要。此报告重点探讨了合成数据的多方面特点，尤其强调了这些数据集可能存在的挑战和潜在偏见。它探讨了合成数据生成的方法，涉及传统统计模型到先进深度学习技术，并研究了它们在不同领域的应用。此报告还批判性地讨论合成数据集涉及的道德考虑和法律影响，突出了确保公平性、减轻偏见和维护人工智能发展中的道德标准的机制的紧迫性。

Jan, 2024

虚假数据的真实风险：合成数据、多元化借名和绕过同意

使用合成数据的机器学习系统存在两个主要风险：通过增加数据集的多样性和代表性，使用合成数据会导致虚假信心的高风险；同时，使用合成数据还会规避数据使用授权，对现有的治理和道德实践产生复杂影响，将数据与受影响个体分离开，可能使算法引发的伤害权力进一步集中。

May, 2024

在受监管行业中实现合成数据采纳

本文介绍了数据中心化思维的重要性和隐私问题、提出了基于合成数据的解决方案，并开发了一种全面的测试方法（DAISYnt），以检验这种方法在高度监管的领域中的可行性和质量，例如金融和医疗保健。

Apr, 2022

语言模型生成的合成数据的最佳实践和经验教训

人工智能模型的成功依赖于大规模、多样化、高质量的数据集的可用性，而由于数据稀缺、隐私问题和高成本，获取这些数据集可能具有挑战性。合成数据作为一种有前景的解决方案出现，通过生成模仿真实世界模式的人工数据。本文提供了合成数据研究的概述，并讨论了其应用、挑战和未来方向。我们通过先前研究中的实证证据来展示其有效性，并强调确保其真实性、保真性和无偏性的重要性。我们强调了在使用合成数据构建更强大、包容性和可信赖的语言模型时的责任使用的需求。

Apr, 2024