Feb, 2024

无条件潜在扩散模型记忆病人影像数据

TL;DR医学图像领域的生成潜在扩散模型具有广泛的应用,其中一个值得注意的应用是通过提出合成数据作为真实患者数据的替代品来实现隐私保护的开放数据共享。然而,这些模型容易遭受患者数据记忆化的问题,从而生成患者数据的副本而非新的合成样本,从而损害了保护患者数据的目的,甚至可能导致患者重新识别。针对这个问题的重要性,令人惊讶的是,在医学图像界中对此问题关注相对较少。为此,我们评估了用于医学图像合成的潜在扩散模型的记忆化问题。我们在 CT、MR 和 X 射线数据集上训练了 2D 和 3D 潜在扩散模型,用于合成数据生成。之后,我们通过自监督模型检查了训练数据记忆化的程度,并进一步研究了可能导致记忆化的各种因素,通过在不同设置下训练模型。我们发现,在所有数据集中,训练数据中有相当大的记忆化现象,分别在 CT、MRI 和 X 射线数据集中分别达到 41.7%、19.6% 和 32.6%。进一步的分析表明,增加训练数据量和使用数据增强可以减少记忆化,而过度训练会增加记忆化。总的来说,我们的结果表明在共享开放数据之前应该进行记忆化受影响的合成数据评估。