BriefGPT.xyz
May, 2024
虚假数据的真实风险: 合成数据、多元化借名和绕过同意
Real Risks of Fake Data: Synthetic Data, Diversity-Washing and Consent Circumvention
HTML
PDF
Cedric Deslandes Whitney, Justin Norman
TL;DR
使用合成数据的机器学习系统存在两个主要风险:通过增加数据集的多样性和代表性,使用合成数据会导致虚假信心的高风险;同时,使用合成数据还会规避数据使用授权,对现有的治理和道德实践产生复杂影响,将数据与受影响个体分离开,可能使算法引发的伤害权力进一步集中。
Abstract
machine learning systems
require representations of the real world for training and testing - they require data, and lots of it. Collecting data at scale has logistical and ethical challenges, and
synthetic data
→