深度生成模型扩大了创建逼真合成健康数据集的潜力,但是仍然存在许多问题和挑战,包括如何评估合成数据集与原始真实数据集的相似性和预测效果,以及分享时的隐私风险。本文概述了合成健康数据领域的现状,包括生成和评估方法与工具,实际应用示例,监管和伦理环境,数据访问和治理选项,以及未来发展机会。
Jan, 2024
通过对真实临床记录进行去识别并生成合成临床记录,我们发现合成数据表现出与真实数据相似的隐私问题,从而引发了合成临床记录是否可以成为敏感真实记录更好替代品的进一步研究的问题。
本文探讨使用生成式 AI 模型,如 GAN 和 VAE,为研究和培训创建逼真的匿名患者数据,以及在医疗保健中应用合成数据的益处、挑战和未来研究方向。
May, 2023
本文旨在介绍模拟器生成数据在医疗保健领域的应用与潜在优势,同时指出了其存在的潜在风险和问题。
Apr, 2023
本文介绍了一种通用的基准测试框架,以评估生成对抗网络等方法合成的医疗数据的实用性和隐私度量,并发现在共享用于电子健康记录的合成数据时存在实用性和隐私度量的折中。
Aug, 2022
介绍了合成数据的定义、用途、隐私挑战和限制,探讨了其作为隐私增强技术的潜力。
Mar, 2023
通过开发多步骤的合成数据生成框架并评估其风险效用模型,成功评估了使用该框架生成的数据的质量,展示了开放 - CESP 倡议的技术和概念的可行性。
Oct, 2023
本研究使用最先进的合成数据生成方法并对在营养学领域的特定用例中生成的数据进行深入的质量分析,展示了对合成数据进行仔细分析的必要性,并通过扩展方法,全面分析从训练模型中抽样的效果,从而在所选择的用例中基本复现了重要的真实世界分析结果。
我们采用差分隐私的框架研究了敏感数据分析的方法,通过将均匀采样步骤替换为私有分布估计器,我们改进了 Boedihardjo 等人工作的算法,并提供了离散和连续分布的计算保证,适用于多种统计任务。
May, 2024
通过系统回顾方法,本文介绍了在医学领域中生成和评估综合性纵向患者数据的 17 种方法,涵盖了从传统模拟技术到现代深度学习方法的范围,并讨论了开发综合性纵向数据生成方法的实际指南和关键考虑因素。
Sep, 2023