去识别并不总是足够

Jan, 2024

De-identification is not always enough

Atiquer Rahman Sarkar, Yao-Shun Chuang, Noman Mohammed, Xiaoqian Jiang

TL;DR通过对真实临床记录进行去识别并生成合成临床记录，我们发现合成数据表现出与真实数据相似的隐私问题，从而引发了合成临床记录是否可以成为敏感真实记录更好替代品的进一步研究的问题。

Abstract

For sharing privacy-sensitive data, de-identification is commonly regarded as adequate for safeguarding privacy. synthetic data is also being considered as a privacy-preserving alternative. Recent successes with

de-identification synthetic data clinical notes membership inference attack privacy concerns

发现论文，激发创造

基于神经语言模型的可共享合成临床记录自动生成技术的研究

研究使用生成模型生成合成临床笔记，以更好地保护患者隐私并促进临床 NLP 模型的开发。

May, 2019

合成医疗数据的真实性和隐私

该论文探讨了使用合成数据作为医学创新的一种替代方法来保护患者隐私的可行性，提出了一个新的框架来量化合成数据的统计保真度和隐私保护性能，并利用 Syntegra 技术生成的合成数据来证明这些指标。

Jan, 2021

合成数据 -- 匿名化之地普通日

评估了现有生成模型绘制的合成数据的隐私保护优势，发现与传统的匿名化技术相比，其提供的隐私保护水平无法预测且数据效用低下，并不存在更好的隐私保护与数据效用均衡的解决方案。

Nov, 2020

隐私保护的合成教育数据生成

本文提出了一种保护参与者隐私的教育数据生成模型和比较合成数据生成器的评估框架，阐述了 Naive 假名化可能导致的再识别威胁，并提出了保证隐私的技术。作者还在现有的大规模教育开放数据集上进行了评估。

Jul, 2022

基于生成对抗网络的数据合成

该研究提出了一种名为 table-GAN 的方法，使用生成对抗网络（GANs）合成伪造表格，用于保证数据匿名性和模型兼容性。实验证明，该方法在隐私和模型兼容性之间取得平衡，同时解决了数据泄露问题。

Jun, 2018

利用生成模型提升临床文档的质量

通过合成数据生成技术来提升临床文档编制的方法，生成高质量的合成文本以准确和高效地改善现有的文档工作流程，进而改善病患护理、减少行政负担和提高医疗系统效率。

Jun, 2024

隐私保护机器学习的合成数据集生成

提出一种从原始数据集生成安全合成数据集的方法，基于预训练的深度神经网络（DNN）的批量归一化（BN）层统计信息和随机噪声进行优化来匹配原始数据的层次统计分布。该方法可以用于从头开始训练神经网络来产生合理的分类性能。

Oct, 2022

超越隐私：合成数据的机遇与挑战

本文探讨生成模型产生的合成数据可能成为机器学习领域的主导力量，可以创造更公平的数据、进行数据增强和模拟，尤其是在 ChatGPT 生成的文本方面。然而，在使用合成数据时，社区需要克服许多基本的挑战，其中最重要的是量化我们能够信任的查找或预测的程度。

Apr, 2023

合成数据异常值：身份泄露导航

通过对合成数据的异常值进行分析，我们的研究发现链接攻击方式可能会导致异常值被重新识别，并且差分隐私等额外安全措施可以预防重新识别，但会损失数据可用性。

Jun, 2024

在医疗领域利用生成式人工智能模型进行合成数据生成：平衡研究和隐私

本文探讨使用生成式 AI 模型，如 GAN 和 VAE，为研究和培训创建逼真的匿名患者数据，以及在医疗保健中应用合成数据的益处、挑战和未来研究方向。

May, 2023