合成医疗数据的真实性和隐私

Jan, 2021

Fidelity and Privacy of Synthetic Medical Data

Ofer Mendelevitch, Michael D. Lesh

TL;DR该论文探讨了使用合成数据作为医学创新的一种替代方法来保护患者隐私的可行性，提出了一个新的框架来量化合成数据的统计保真度和隐私保护性能，并利用 Syntegra 技术生成的合成数据来证明这些指标。

Abstract

The digitization of medical records ushered in a new era of big data to clinical science, and with it the possibility that data could be shared, to multiply insights beyond what investigators could abstract from

big data privacy data sharing synthetic data medical records

发现论文，激发创造

合成健康数据概述

深度生成模型扩大了创建逼真合成健康数据集的潜力，但是仍然存在许多问题和挑战，包括如何评估合成数据集与原始真实数据集的相似性和预测效果，以及分享时的隐私风险。本文概述了合成健康数据领域的现状，包括生成和评估方法与工具，实际应用示例，监管和伦理环境，数据访问和治理选项，以及未来发展机会。

Jan, 2024

去识别并不总是足够

通过对真实临床记录进行去识别并生成合成临床记录，我们发现合成数据表现出与真实数据相似的隐私问题，从而引发了合成临床记录是否可以成为敏感真实记录更好替代品的进一步研究的问题。

Jan, 2024

在医疗领域利用生成式人工智能模型进行合成数据生成：平衡研究和隐私

本文探讨使用生成式 AI 模型，如 GAN 和 VAE，为研究和培训创建逼真的匿名患者数据，以及在医疗保健中应用合成数据的益处、挑战和未来研究方向。

May, 2023

医疗保健中的合成数据

本文旨在介绍模拟器生成数据在医疗保健领域的应用与潜在优势，同时指出了其存在的潜在风险和问题。

Apr, 2023

合成电子病历生成模型的多方面基准测试

本文介绍了一种通用的基准测试框架，以评估生成对抗网络等方法合成的医疗数据的实用性和隐私度量，并发现在共享用于电子健康记录的合成数据时存在实用性和隐私度量的折中。

Aug, 2022

什么是合成数据？好的，坏的和丑陋的

介绍了合成数据的定义、用途、隐私挑战和限制，探讨了其作为隐私增强技术的潜力。

Mar, 2023

一个基于距离的原创全合成数据生成方法的统计属性和隐私保证

通过开发多步骤的合成数据生成框架并评估其风险效用模型，成功评估了使用该框架生成的数据的质量，展示了开放 - CESP 倡议的技术和概念的可行性。

Oct, 2023

为纵向队列研究生成合成数据 —— 评估、方法扩展与已发布的数据分析结果再现

本研究使用最先进的合成数据生成方法并对在营养学领域的特定用例中生成的数据进行深入的质量分析，展示了对合成数据进行仔细分析的必要性，并通过扩展方法，全面分析从训练模型中抽样的效果，从而在所选择的用例中基本复现了重要的真实世界分析结果。

May, 2023

具有私密密度估计的差分隐私合成数据

我们采用差分隐私的框架研究了敏感数据分析的方法，通过将均匀采样步骤替换为私有分布估计器，我们改进了 Boedihardjo 等人工作的算法，并提供了离散和连续分布的计算保证，适用于多种统计任务。

May, 2024

生成和评估合成纵向患者数据的方法：系统综述

通过系统回顾方法，本文介绍了在医学领域中生成和评估综合性纵向患者数据的 17 种方法，涵盖了从传统模拟技术到现代深度学习方法的范围，并讨论了开发综合性纵向数据生成方法的实际指南和关键考虑因素。

Sep, 2023