用于基准测试数据隐私算法的多样化社区数据
本研究旨在建立使用合成数据训练的模型在偏见和公平之间的权衡,并研究了合成数据生成技术的变体,包括差分隐私生成方案,通过实验表明,合成数据训练的模型存在不同程度的偏差影响,且生成的特征不相关的技术表现良好。该研究有助于数据科学实践者理解合成数据的使用中的偏见。
May, 2021
合成数据在解决处理真实面部数据的伦理和法律挑战中作为真实数据的替代品出现。我们研究了合成面部识别数据集的多样性与真实数据集的对比,以及生成模型的训练数据分布如何影响合成数据的分布。我们还研究了在比较最近三个基于合成数据的面部识别模型与基准模型 (基于真实数据) 在所研究属性上的具体偏差。结果显示,生成器生成的不同属性具有与所使用的训练数据相似的分布。在偏差方面,合成模型与真实模型具有类似的偏差行为。然而,发现较低的内部一致性似乎有助于减少偏差。
Nov, 2023
通过开发多步骤的合成数据生成框架并评估其风险效用模型,成功评估了使用该框架生成的数据的质量,展示了开放 - CESP 倡议的技术和概念的可行性。
Oct, 2023
我们采用差分隐私的框架研究了敏感数据分析的方法,通过将均匀采样步骤替换为私有分布估计器,我们改进了 Boedihardjo 等人工作的算法,并提供了离散和连续分布的计算保证,适用于多种统计任务。
May, 2024
通过综合收集来自 125 个国家的 12 种语言的新闻文章,结合强制的专题多样化、翻译和摘要生成,我们提出了一种新颖的方法来创建合成数据集,这些数据集能够准确地反映真实世界的复杂性,并解决传统数据集中的代表不足问题,初步结果表明,在传统命名实体识别基准测试中,我们的合成数据使性能提升多达 7.3%,突显了我们的合成数据在模拟全球数据源中丰富多样的细微差异方面的有效性。
Jun, 2024
计算机决策系统在许多日常生活的方面得到广泛应用,但其中可能存在性别、种族或其他偏见问题。本研究提出一种鲁棒的方法,通过真实世界数据提取出表征人口平衡和真实性的数据集,用于训练分类器,并测试其泛化能力,证实计算机辅助决策中不存在明示或隐含偏见。
Sep, 2023
使用合成数据的机器学习系统存在两个主要风险:通过增加数据集的多样性和代表性,使用合成数据会导致虚假信心的高风险;同时,使用合成数据还会规避数据使用授权,对现有的治理和道德实践产生复杂影响,将数据与受影响个体分离开,可能使算法引发的伤害权力进一步集中。
May, 2024
本文介绍了数据中心化思维的重要性和隐私问题、提出了基于合成数据的解决方案,并开发了一种全面的测试方法(DAISYnt),以检验这种方法在高度监管的领域中的可行性和质量,例如金融和医疗保健。
Apr, 2022