研究使用生成模型生成合成临床笔记,以更好地保护患者隐私并促进临床 NLP 模型的开发。
May, 2019
该论文探讨了使用合成数据作为医学创新的一种替代方法来保护患者隐私的可行性,提出了一个新的框架来量化合成数据的统计保真度和隐私保护性能,并利用 Syntegra 技术生成的合成数据来证明这些指标。
Jan, 2021
评估了现有生成模型绘制的合成数据的隐私保护优势,发现与传统的匿名化技术相比,其提供的隐私保护水平无法预测且数据效用低下,并不存在更好的隐私保护与数据效用均衡的解决方案。
Nov, 2020
本文提出了一种保护参与者隐私的教育数据生成模型和比较合成数据生成器的评估框架,阐述了 Naive 假名化可能导致的再识别威胁,并提出了保证隐私的技术。作者还在现有的大规模教育开放数据集上进行了评估。
Jul, 2022
该研究提出了一种名为 table-GAN 的方法,使用生成对抗网络(GANs)合成伪造表格,用于保证数据匿名性和模型兼容性。实验证明,该方法在隐私和模型兼容性之间取得平衡,同时解决了数据泄露问题。
Jun, 2018
通过合成数据生成技术来提升临床文档编制的方法,生成高质量的合成文本以准确和高效地改善现有的文档工作流程,进而改善病患护理、减少行政负担和提高医疗系统效率。
Jun, 2024
提出一种从原始数据集生成安全合成数据集的方法,基于预训练的深度神经网络(DNN)的批量归一化(BN)层统计信息和随机噪声进行优化来匹配原始数据的层次统计分布。该方法可以用于从头开始训练神经网络来产生合理的分类性能。
Oct, 2022
本文探讨生成模型产生的合成数据可能成为机器学习领域的主导力量,可以创造更公平的数据、进行数据增强和模拟,尤其是在 ChatGPT 生成的文本方面。然而,在使用合成数据时,社区需要克服许多基本的挑战,其中最重要的是量化我们能够信任的查找或预测的程度。
Apr, 2023
通过对合成数据的异常值进行分析,我们的研究发现链接攻击方式可能会导致异常值被重新识别,并且差分隐私等额外安全措施可以预防重新识别,但会损失数据可用性。
本文探讨使用生成式 AI 模型,如 GAN 和 VAE,为研究和培训创建逼真的匿名患者数据,以及在医疗保健中应用合成数据的益处、挑战和未来研究方向。
May, 2023