我们提出了一种新的蒸馏方法,可以减少迭代计算过程中无需分类器指导的扩散模型的推理计算时间,并且只需要基础模型的 1%的可训练参数,同时还能维持生成图像的视觉逼真度。
Jun, 2024
通过改进扩散模型以生成可控高质量的深度伪造图像,并使用 Dreambooth 训练提供更真实和个性化的输出图像,该研究展示了以惊人的逼真度创建虚假的视觉内容,并可作为权力政治人物会面的可信证据。
Sep, 2023
通过解释扩散模型为基于能量的模型,在训练和测试阶段中将一组扩散模型组合在一起,结构化生成,该方法可用于合成预训练的文本指导的扩散模型并生成生动逼真的图像,解决了 DALLE-2 在对象属性方面的困难。
Jun, 2022
本文研究了图像扩散模型,如 DALL-E 2,Imagen 和 Stable Diffusion,发现它们从训练数据中记忆单个图像并在生成时发射此类图像,总结了此类模型的隐私风险和影响隐私保护培训的新进展。
Jan, 2023
提出一种新颖的图像编辑技术,可以在单幅图像上进行三维操作,如物体旋转和平移。通过使用在广泛的文本 - 图像对上训练的强大图像扩散模型,实现了生成具有大视角变换、高外观和形状一致性的高质量三维感知图像编辑,突破了单幅图像三维感知编辑的可能性的局限。
Mar, 2024
通过使用预训练的 UNet(或 transformer)扩散模型仅需适量的目标数据(甚至只有合成数据),在基础视觉感知任务中能够实现出色的可传递性表现,包括单眼深度、表面法线、图像分割、抠图、人体姿势估计等。
通过图像条件实现的一种新颖的有条件蒸馏方法,将扩散模型的先验知识与图像条件相结合,大大简化了以往两阶段的蒸馏过程,并通过少量的额外参数和冻结的无条件主干网络实现了一种新的高效蒸馏机制,实验结果表明,该方法在多个任务上的表现优于现有的人工蒸馏技术,并且是第一个能够与更慢的精细调优有条件扩散模型相匹配的蒸馏策略。
Oct, 2023
利用生成式文本到图像模型的最新进展,我们引入了数据集精炼使用扩散模型 (D3M) 作为一种新的数据集精炼范式。通过文本反演技术,我们利用学习到的文本提示为大型数据集创建简洁且有信息量的表示,以在固定的内存预算内有效地存储和推理新样本,并通过在不同内存预算下在各种计算机视觉基准数据集上进行的广泛实验验证了我们方法的有效性。
扩散模型的实例教学方法和分布教学方法在图像生成模型方面取得了显著的研究成果,提出的分布教学方法在减少训练图像数量的同时取得了最先进的结果,提高了对高效图像生成模型的理解并为各种应用提供了可扩展的框架。
May, 2024
本文介绍了一种基于扩散模型的交互式基于点的图像编辑框架 DragDiffusion,并通过优化扩散模型潜在空间实现精确的空间控制。
Jun, 2023