May, 2024

虚假数据的真实风险: 合成数据、多元化借名和绕过同意

TL;DR使用合成数据的机器学习系统存在两个主要风险:通过增加数据集的多样性和代表性,使用合成数据会导致虚假信心的高风险;同时,使用合成数据还会规避数据使用授权,对现有的治理和道德实践产生复杂影响,将数据与受影响个体分离开,可能使算法引发的伤害权力进一步集中。