- 使用 GAN 生成 3D 心脏超声图像的合成标记数据集的数据增强流水线
通过结合详细的心脏解剖分割模型和真实数据集,利用生成对抗网络(GAN)生成 3D 合成数据集来解决医学成像领域中的数据收集和标注困难,从而应对 3D 心脏超声图像数据稀缺问题,并展示了该方法在分割算法训练中的潜在应用价值。
- 推进生成模型评估:OCR 系统中逼真图像合成和比较的新算法
本研究提出了一种新颖的算法,主要针对生成模型中合成图像的真实性进行客观评估。该算法通过改进 Fréchet Inception Distance(FID)得分,显著提高了评估方法的精确性,特别针对生成和评估阿拉伯手写数字的真实图像的挑战。我 - CVPRManiFPT: 生成模型的指纹定义和分析
生成模型的指纹对于区分不同类型的合成图像并帮助识别潜在生成过程的效果具有显著提升,同时指纹的结构能够预测不同设计选择对生成过程的影响。
- 评估人工智能生成的医学图像中隐形水印的有效性
我们的研究提出在合成医学图像中引入不可见水印,并评估其在下游分类任务中的有效性,以推动讨论此类水印在增强合成医学图像的可检测性、巩固道德标准、防止数据污染和潜在骗局方面的可行性。
- 从模型学习视觉:模型对抗学习视觉
通过合成图像和合成标题无需真实数据地学习视觉表征,SynCLR 方法在对合成图像进行对比学习的基础上,将得到的表征在多个下游任务中转移,与其他通用视觉表征学习算法相比,在图像分类任务中表现出色;此外,在诸如语义分割等密集预测任务中,SynC - 重新思考卷积神经网络生成网络中的上采样操作,用于可泛化的深度伪造检测
通过对 CNN-based generator 架构的重新思考,揭示图像上采样操作产生的综合伪造图像中的伪造性特征,进而建立了合成伪造特征的广义表示。在开放世界数据集上的综合分析表明,本研究在现有方法上取得了 12.8% 的显著改进。
- 模型训练中的合成图像缩放定律…… 目前而言
通过研究最先进的文本到图像模型生成的合成图像在规模上的表现,本文发现合成图像在训练监督图像分类器时性能较差原因是某些概念无法被现成的文本到图像模型生成,但对于与真实图像结合训练 CLIP 模型或存在真实图像供给不足或评估数据集与训练数据差异 - 提高深度生成数据的效果
即使合成图像在下游图像分类任务中导致性能下降,通过使用合成图像增强真实数据可以在数据稀缺情况下提升下游分类任务的表现,内容差距是这一现象的较大部分原因,我们提出了策略来更好地利用深度生成模型中的合成图像。
- 通过多光谱合成图像增强的深度学习进行核桃检测
通过使用包含真实和合成 RGB 和 NIR 图像的丰富图像集,本研究提出了一种改进核桃检测效率的新方法,利用 YOLOv5 进行训练。与原始数据集相比较结果分析显示,在使用合成图像时,检测效果明显改善。
- 多样性和扩散:对稳定扩散下合成图像分布的观察
通过对文本到图像系统的进展和合成图像在训练和推理过程中的不足进行研究,揭示了语义不匹配、多样性缺乏和表征基础概念的无能等问题,同时提出了对 CLIP 嵌入几何的令人惊讶的见解。
- 通过扩散模型合成糖尿病足溃疡图像
研究利用扩散模型合成糖尿病足溃疡图像,通过专业临床医生评估验证其真实性,并探讨评估指标与医生评估的一致性,结果表明扩散模型成功地合成了难以区分的糖尿病足溃疡图像,并强调了其在医学培训和伤口检测与分类研究中的潜力。
- FreeMask: 密集标注的合成图像增强分割模型
使用合成图像来缓解数据收集和标注流程的负担,该方法通过基于真实数据集提供的语义掩码合成丰富的训练图像,通过与合成图像的训练,可以达到与真实图像相当的性能。
- 数据蒸馏如同伏特加:多次蒸馏以提高质量
通过使用逐步数据集提取方法,这篇研究论文提出了一种在训练期间使用多个合成子集来捕捉深度网络的训练动态,并在不增加训练时间的情况下显著改善现有数据集提取方法的性能,同时还首次实现了生成更大的合成数据集。
- 利用合成数据进行医学视觉 - 语言预训练:绕开真实图像的需求
利用合成图像从真实医学报告中生成的医学影像,可以有效地实现医学视觉与语言预训练 (VLP),并且在图像分类、语义分割和目标检测等任务上,利用合成数据的性能与真实数据相当甚至超过。
- 人工智能生成的图像作为数据源:合成时代的黎明
通过利用生成人工智能(AI)产生的图像作为新的数据源,重新塑造了视觉智能中的传统模型范式,本文探讨了这一创新概念,从训练机器学习模型到模拟场景进行计算建模、测试和验证等一系列应用中探索了生成数据的潜力,并深入讨论了支持这种突破性使用生成 A - 用于解决基于 GAN 的 X 射线图像中模式崩溃问题的自适应输入图像归一化
通过研究不同类型的模式崩溃问题和它们对合成 X 射线图像的多样性的影响,本文探讨了将自适应输入图像归一化与深度卷积 GAN 和辅助分类 GAN 相结合以减轻模式崩溃问题的好处。通过将合成图像用于数据增强和训练视觉转换模型,使用准确度、召回率 - 学习从刚体的图像预测未知质量分布的 3D 旋转动力学
使用多级预测管道,通过图像序列估计和预测三维旋转动力学,采用物理信息神经网络模型,并在旋转对象的合成图像序列数据集上展示了其有效性,包括正方体、棱柱和卫星等物体的未知均匀和非均匀质量分布。
- 开放集合的合成图像源归因
通过度量学习的方法,我们提出了一种用于实现开放集场景下合成图像源追溯的技术,该技术通过学习可区分不同生成器的可转移嵌入向量,并通过与已知生成器的学习参考点在嵌入空间中的距离来判定图像的真实性。实验结果表明,我们的方法能够在开放集场景下成功追 - U-Turn 扩散
我们对基于分数的扩散模型进行全面研究,以生成合成图像。我们揭示了评估分数扩散模型效率的标准:生成过程的能力取决于在反向 / 去噪阶段中解构快速相关性的能力。为了提高生成的合成图像的质量,我们引入了一种称为 “U-Turn Diffusion - ICCV用非常有限的合成图像预训练视觉 Transformer
基于数学公式生成的合成图像的预训练方法(FDSL)通过数据增强替代了显式生成实例,证实其性能优于原始数据集,从而打开了使用更小数据集进行预训练视觉转换的新可能性。