虚假数据的真实风险：合成数据、多元化借名和绕过同意

May, 2024

虚假数据的真实风险：合成数据、多元化借名和绕过同意

Real Risks of Fake Data: Synthetic Data, Diversity-Washing and Consent Circumvention

Cedric Deslandes Whitney, Justin Norman

TL;DR使用合成数据的机器学习系统存在两个主要风险：通过增加数据集的多样性和代表性，使用合成数据会导致虚假信心的高风险；同时，使用合成数据还会规避数据使用授权，对现有的治理和道德实践产生复杂影响，将数据与受影响个体分离开，可能使算法引发的伤害权力进一步集中。

Abstract

machine learning systems require representations of the real world for training and testing - they require data, and lots of it. Collecting data at scale has logistical and ethical challenges, and synthetic data

machine learning systems synthetic data false confidence consent for data usage governance and ethical practice

发现论文，激发创造

使用合成数据训练 AI 模型：可持续发展的机遇与风险

研究了合成数据的政策，包括创建、利用和传播。必须在保护隐私和数据的可用性之间找到平衡，并制定标准化准则来应对合成数据的挑战。

Aug, 2023

合成基于人脸识别中的偏见和多样性

合成数据在解决处理真实面部数据的伦理和法律挑战中作为真实数据的替代品出现。我们研究了合成面部识别数据集的多样性与真实数据集的对比，以及生成模型的训练数据分布如何影响合成数据的分布。我们还研究了在比较最近三个基于合成数据的面部识别模型与基准模型 (基于真实数据) 在所研究属性上的具体偏差。结果显示，生成器生成的不同属性具有与所使用的训练数据相似的分布。在偏差方面，合成模型与真实模型具有类似的偏差行为。然而，发现较低的内部一致性似乎有助于减少偏差。

Nov, 2023

人脸识别的合成数据：现状和未来前景

该研究论文探讨了合成面部数据在人脸识别领域中的应用及近期进展，以及由此带来的挑战和未来前景。研究提出合成数据作为隐私友好的替代品具有很大的潜力。

May, 2023

使用合成数据训练深度人脸识别系统

本研究使用 3D 可变形面部模型，通过合成数据生成具有不同面部身份和完全控制的姿态、光照和背景的图像，观察到利用合成数据可以显著降低对真实世界图像需求，在预训练后，通过微调真实图像，合成数据与真实数据相结合的模型可获得更高的性能，而且并没有负面影响。

Feb, 2018

超越隐私：合成数据的机遇与挑战

本文探讨生成模型产生的合成数据可能成为机器学习领域的主导力量，可以创造更公平的数据、进行数据增强和模拟，尤其是在 ChatGPT 生成的文本方面。然而，在使用合成数据时，社区需要克服许多基本的挑战，其中最重要的是量化我们能够信任的查找或预测的程度。

Apr, 2023

使用合成脸部数据进行人脸识别

本研究利用合成数据和微调模型，在人脸识别领域取得了高精确度的成果，并研究表明模型的性能还受到脸部不同部位的影响。

May, 2023

人工智能中的合成数据：挑战、应用和伦理影响

在快速发展的人工智能领域中，合成数据集的创建和利用日益重要。此报告重点探讨了合成数据的多方面特点，尤其强调了这些数据集可能存在的挑战和潜在偏见。它探讨了合成数据生成的方法，涉及传统统计模型到先进深度学习技术，并研究了它们在不同领域的应用。此报告还批判性地讨论合成数据集涉及的道德考虑和法律影响，突出了确保公平性、减轻偏见和维护人工智能发展中的道德标准的机制的紧迫性。

Jan, 2024

通过合成人脸降低人脸识别中真实数据的需求量

本研究主要探讨利用合成人脸数据训练深度人脸识别模型的有效性，以减少对真实图像的依赖并解决数据收集问题，并且通过数据增强技术的应用进一步优化识别准确率。

Apr, 2024

从真实数据到合成数据的转换：量化模型中的偏差

本研究旨在建立使用合成数据训练的模型在偏见和公平之间的权衡，并研究了合成数据生成技术的变体，包括差分隐私生成方案，通过实验表明，合成数据训练的模型存在不同程度的偏差影响，且生成的特征不相关的技术表现良好。该研究有助于数据科学实践者理解合成数据的使用中的偏见。

May, 2021

语言模型生成的合成数据的最佳实践和经验教训

人工智能模型的成功依赖于大规模、多样化、高质量的数据集的可用性，而由于数据稀缺、隐私问题和高成本，获取这些数据集可能具有挑战性。合成数据作为一种有前景的解决方案出现，通过生成模仿真实世界模式的人工数据。本文提供了合成数据研究的概述，并讨论了其应用、挑战和未来方向。我们通过先前研究中的实证证据来展示其有效性，并强调确保其真实性、保真性和无偏性的重要性。我们强调了在使用合成数据构建更强大、包容性和可信赖的语言模型时的责任使用的需求。

Apr, 2024