生成合理的医疗记录合成数据集

KDDJul, 2018

Generating Synthetic but Plausible Healthcare Record Datasets

Laura Aviñó, Matteo Ruffini, Ricard Gavaldà

TL;DR通过对患者数据集进行聚类，我们提出了一种新方法来生成二进制数据集，该方法不同于 Generative adversarial networks（GANs），生成的模型易于解释，且通过比较实际应用数据集的多个参数得出的结果表明，该方法生成的人造数据集在多个指标上比现有方法更为逼真。

Abstract

Generating datasets that "look like" given real ones is an interesting tasks for healthcare applications of ML and many other fields of science and engineering. In this paper we propose a new method of general application to →

binary datasets latent variable moment generative models healthcare applications icd-9 diagnostic codes

发现论文，激发创造

利用生成对抗网络生成多标签离散化患者记录

本文提出了一种基于生成对抗网络的方法（medGAN），用于生成逼真的合成病人记录数据，并证明其可行性及隐私风险。

Mar, 2017

多种医学模态下的合成数据生成人工智能：最新发展及挑战的系统综述

本研究综述了生成模型在合成各种医学数据类型方面的广泛应用，探索了合成应用、生成技术和评估方法等方面的见解，强调了医学数据的唯一性和临床应用的需求。同时，研究也揭示了医学图像评估方法的不足之处，呼吁进行深入评估、基准测试和比较研究以促进开放和合作。

Jun, 2024

保护和扩展 —— 使用 GAN 生成时间序列医疗记录的合成数据

通过比较各种使用生成对抗网络的合成数据生成模型，研究证明了隐私保护生成对抗网络（PPGAN）模型在保护隐私的同时保持了可接受的生成数据质量，为将来医疗应用提供更好的数据保护。

Feb, 2024

在医疗领域利用生成式人工智能模型进行合成数据生成：平衡研究和隐私

本文探讨使用生成式 AI 模型，如 GAN 和 VAE，为研究和培训创建逼真的匿名患者数据，以及在医疗保健中应用合成数据的益处、挑战和未来研究方向。

May, 2023

基于 GAN 的皮肤病应用生成建模 -- 比较研究

利用生成对抗网络 (GANs) 创建合成数据是解决医疗数据库隐私政策问题的好方法。本文探讨了集中式和分散式条件和非条件 GANs 的性能以及其在现实和理想情况下生成病变数据的能力，并说明了 GANs 训练过程中潜空间和嵌入可视化的技术，以及 GANs 的真实性和泛化性评估等问题。

Aug, 2022

使用卷积 GAN 产生差分隐私的合成医疗数据

本篇论文提出了一种基于不同 ially private 框架和卷积自编码器以及卷积生成对抗网络生成合成数据的方法，以应对使用医疗记录数据所面临的隐私困难，该方法能够捕捉到原始数据中存在的时间信息和特征相关性，并在有监督和无监督情况下使用公开可用的标准医疗数据集，优于现有的同类方法。

Dec, 2020

合成健康数据概述

深度生成模型扩大了创建逼真合成健康数据集的潜力，但是仍然存在许多问题和挑战，包括如何评估合成数据集与原始真实数据集的相似性和预测效果，以及分享时的隐私风险。本文概述了合成健康数据领域的现状，包括生成和评估方法与工具，实际应用示例，监管和伦理环境，数据访问和治理选项，以及未来发展机会。

Jan, 2024

利用生成模型提升临床文档的质量

通过合成数据生成技术来提升临床文档编制的方法，生成高质量的合成文本以准确和高效地改善现有的文档工作流程，进而改善病患护理、减少行政负担和提高医疗系统效率。

Jun, 2024

合성医学影像的质量如何？肺部超声的实证研究

通过使用生成模型中的合成训练数据，本研究提出了一个全面框架，以提高医学图像分析的模型开发效果，同时解决数据稀缺、数据不平衡和患者隐私问题。通过在各种规模的数据集上进行测试，我们展示了生成模型作为数据增广方法的优势，以及通过敌对方法保护患者隐私以及使用实际留存数据进行模型测试的新型性能指标。我们证明了使用合成数据和真实数据进行训练优于仅使用真实数据进行训练，并且仅使用合成数据进行训练的模型接近仅使用真实数据进行训练的模型。

Oct, 2023

人工临床记录的零样本和少样本生成策略

使用零样本和少样本提示策略，本研究评估了 Llama 2 LLM 创建合成医疗记录的能力，将其与需要敏感患者数据进行训练的精调方法进行比较，结果显示这种连贯思维提示方法允许零样本模型在 Rouge 评估指标上达到与精调模型相当的结果。

Mar, 2024