Dec, 2023

SynFundus:生成数百万样本和多种疾病标注的合成眼底图像数据集

TL;DR在医学影像领域,由于隐私限制导致大规模数据集的稀缺性成为开发大型医学模型的重要障碍。为解决这个问题,我们引入了 SynFundus-1M,这是一个高质量的合成数据集,包含超过 100 万张视网膜底部图像以及详尽的疾病和病理学注释。SynFundus-1M 是由去噪扩散概率模型生成的,并且 SynFundus-Generator 和 SynFundus-1M 在主流公开真实数据集上的优秀 Frechet Inception Distance(FID)分数超过了现有方法。此外,眼科医生的评估验证了辨别这些合成图像与真实图像的困难程度,进一步证实了 SynFundus-1M 的真实性。通过大量实验证明,卷积神经网络(CNN)和视觉转换器(ViT)都可以从 SynFundus-1M 的预训练或直接训练中获益。相比 ImageNet 或 EyePACS 等数据集,使用 SynFundus-1M 训练的模型不仅在各种下游任务上表现更好,并且收敛速度更快。