用于基准测试数据隐私算法的多样化社区数据

Jun, 2023

用于基准测试数据隐私算法的多样化社区数据

Diverse Community Data for Benchmarking Data Privacy Algorithms

Aniruddha Sen, Christine Task, Dhruv Kapur, Gary Howarth, Karan Bhagat

TL;DR介绍了一种基于综合数据集的新的逆向算法验证方法。

Abstract

The Diverse Communities Data Excerpts are the core of a National Institute of Standards and Technology (NIST) program to strengthen understanding of tabular data deidentification technologies such as synthetic data

deidentification technologies synthetic data bias privacy issues diverse benchmark data

发现论文，激发创造

从真实数据到合成数据的转换：量化模型中的偏差

本研究旨在建立使用合成数据训练的模型在偏见和公平之间的权衡，并研究了合成数据生成技术的变体，包括差分隐私生成方案，通过实验表明，合成数据训练的模型存在不同程度的偏差影响，且生成的特征不相关的技术表现良好。该研究有助于数据科学实践者理解合成数据的使用中的偏见。

May, 2021

人脸识别中减少人口统计偏见的合成数据

通过使用合成数据来缓解影响面部识别技术的人口偏见的可能性进行了研究。

Feb, 2024

合成基于人脸识别中的偏见和多样性

合成数据在解决处理真实面部数据的伦理和法律挑战中作为真实数据的替代品出现。我们研究了合成面部识别数据集的多样性与真实数据集的对比，以及生成模型的训练数据分布如何影响合成数据的分布。我们还研究了在比较最近三个基于合成数据的面部识别模型与基准模型 (基于真实数据) 在所研究属性上的具体偏差。结果显示，生成器生成的不同属性具有与所使用的训练数据相似的分布。在偏差方面，合成模型与真实模型具有类似的偏差行为。然而，发现较低的内部一致性似乎有助于减少偏差。

Nov, 2023

一个基于距离的原创全合成数据生成方法的统计属性和隐私保证

通过开发多步骤的合成数据生成框架并评估其风险效用模型，成功评估了使用该框架生成的数据的质量，展示了开放 - CESP 倡议的技术和概念的可行性。

Oct, 2023

具有私密密度估计的差分隐私合成数据

我们采用差分隐私的框架研究了敏感数据分析的方法，通过将均匀采样步骤替换为私有分布估计器，我们改进了 Boedihardjo 等人工作的算法，并提供了离散和连续分布的计算保证，适用于多种统计任务。

May, 2024

为促进公正而收集具有全球视角的扎实合成数据

通过综合收集来自 125 个国家的 12 种语言的新闻文章，结合强制的专题多样化、翻译和摘要生成，我们提出了一种新颖的方法来创建合成数据集，这些数据集能够准确地反映真实世界的复杂性，并解决传统数据集中的代表不足问题，初步结果表明，在传统命名实体识别基准测试中，我们的合成数据使性能提升多达 7.3％，突显了我们的合成数据在模拟全球数据源中丰富多样的细微差异方面的有效性。

Jun, 2024

合成数据异常值：身份泄露导航

通过对合成数据的异常值进行分析，我们的研究发现链接攻击方式可能会导致异常值被重新识别，并且差分隐私等额外安全措施可以预防重新识别，但会损失数据可用性。

Jun, 2024

人口平等：缓解现实世界数据中的偏见

计算机决策系统在许多日常生活的方面得到广泛应用，但其中可能存在性别、种族或其他偏见问题。本研究提出一种鲁棒的方法，通过真实世界数据提取出表征人口平衡和真实性的数据集，用于训练分类器，并测试其泛化能力，证实计算机辅助决策中不存在明示或隐含偏见。

Sep, 2023

虚假数据的真实风险：合成数据、多元化借名和绕过同意

使用合成数据的机器学习系统存在两个主要风险：通过增加数据集的多样性和代表性，使用合成数据会导致虚假信心的高风险；同时，使用合成数据还会规避数据使用授权，对现有的治理和道德实践产生复杂影响，将数据与受影响个体分离开，可能使算法引发的伤害权力进一步集中。

May, 2024

在受监管行业中实现合成数据采纳

本文介绍了数据中心化思维的重要性和隐私问题、提出了基于合成数据的解决方案，并开发了一种全面的测试方法（DAISYnt），以检验这种方法在高度监管的领域中的可行性和质量，例如金融和医疗保健。

Apr, 2022