TAPAS:用于合成数据的对抗隐私审计工具箱
我们提出了一种综合评估合成数据的方法,该方法包括合成数据质量的三个维度:相似性、实用性和隐私性。通过将这种评估应用于三个不同的学习分析数据集以及三种不同的合成数据生成方法,我们的结果表明合成数据可以在保护隐私的同时保持与真实数据相似的实用性。此外,针对不同学习分析场景中不同的隐私和数据实用性需求,我们提出了定制的合成数据生成建议。该论文不仅提供了合成数据的综合评估,还说明了在学习分析领域中缓解隐私问题的潜力,从而促进了合成数据在学习分析中的更广泛应用,推动了开放科学的良好实践。
Jan, 2024
本文介绍了一种基于合成数据的面部防伪数据集,名为 SynthASpoof,简要阐述了 MixStyle 的工作原理以及使用合成数据作为有限认证训练数据的补充,并给出了该数据集、实现和预训练权重的公开链接。
Mar, 2023
评估了现有生成模型绘制的合成数据的隐私保护优势,发现与传统的匿名化技术相比,其提供的隐私保护水平无法预测且数据效用低下,并不存在更好的隐私保护与数据效用均衡的解决方案。
Nov, 2020
本研究表明,假设攻击者只能访问合成数据而不是其他辅助数据集,会导致轻松攻击合成数据,因此需要检验合成数据隐私保护的安全性。
Jul, 2023
本文介绍了一种基于强化预训练的模型 ReasTAP,可以注入高级的表格推理能力,在多项任务上取得新的最先进性能和显著的改进。
Oct, 2022
TAPAS 是一种用于表格上回答自然语言问题的模型,它使用弱监督训练,不需要生成逻辑式,而是通过对表格中的单元格进行选择并可选择性地应用相应的聚合算子来预测表格的结果,并在三个语义分析数据集上取得了优异成绩。
Apr, 2020
本研究提出了一个名为 TAPS-RM 的框架,该框架可以通过社会、法律和伦理的视角探索数据科学项目的方方面面,并明确参与者的责任。TAPS-RM 是推动负责任的数据科学的设计的工具。
Feb, 2023
综合数据是一种隐私增强技术,但缺乏隐私保护程度的标准。本文讨论了提出的量化方法,有助于制定综合数据隐私标准、促进多学科讨论,并帮助综合数据研究人员做出有根据的建模和评估决策。
Nov, 2023