Zilong Zhao, Aditya Kunar, Hiek Van der Scheer, Robert Birke, Lydia Y. Chen
TL;DR本文主要介绍了一种名为 CTAB-GAN 的条件表格 GAN 架构,可以有效地模拟多种数据类型,包括连续和分类变量,并且通过对多项机器学习算法进行测试,在五个数据集上的表现令人印象深刻。
Abstract
While data sharing is crucial for knowledge development, privacy concerns and
strict regulation (e.g., European General Data Protection Regulation (GDPR))
unfortunately limit its full effectiveness. Synthetic tab
使用自编码生成对抗网络(GANs)和条件生成对抗网络(CTGAN),提出了一种生成综合医疗记录(包括胸部 X 光图像和结构化表格数据)的方法。通过将 GAN 模型的编码器与原始数据库中的图像进行组合,成功生成了多样的综合 X 光图像和表格数据的合成记录,并通过可视评估、间记录距离分布和分类任务评估了生成的数据库。该方法有潜力在不损害数据二次使用的情况下公开发布合成数据集。