DiffMorpher:释放扩散模型在图像变形中的能力
使用条件化文本的图像生成模型是一种广泛应用于人工智能图像合成的方法,但直观地通过艺术家的引导控制输出仍然具有挑战性。当前的方法需要多个图像和文本提示来指定每个对象作为概念以生成一张定制的图像。与此不同的是,我们的工作 'DiffMorph' 引入了一种新的方法,它在不使用文本提示的情况下合成混合概念的图像。我们的工作将绘制的草图作为输入,采用了一种草图到图像模块进行整合,以生成变形后的图像。我们使用预训练的文本到图像扩散模型并对其进行微调以忠实地重构每个图像。我们将从草图中合理地融合图像和概念,展示了我们的工作的图像生成能力,并将其与基于提示的图像生成进行比较。
Jan, 2024
最近,扩散模型在文本到图像 (T2I) 生成方面取得了显著进展,合成出高保真度和多样性内容的图像。然而,扩散模型内的潜在空间平滑性仍然很少被研究。我们通过观察到微小的潜在变化导致明显的视觉波动来揭示扩散潜在空间的非平滑性。为了解决这个问题,我们提出了 Smooth Diffusion,这是一种新类别的扩散模型,既高效又平滑。具体而言,我们引入了逐步变化规范化,以确保任意输入潜在的变化与输出图像的变化之间的比例在扩散训练的任何步骤中都是恒定的。此外,我们设计了插值标准差 (ISTD) 度量,以有效评估扩散模型的潜在空间平滑性。广泛的定量和定性实验表明,Smooth Diffusion 在 T2I 生成以及其他各种下游任务中都表现出更好的解决方案。Smooth Diffusion 作为一个即插即用的 Smooth-LoRA 与不同的社区模型配合使用。代码可在此 https 的 URL 获取。
Dec, 2023
本研究工作旨在通过将 3D 可变模型整合到最新的多视角一致性扩散方法中,增强生成扩散模型在创建可控、照片般逼真的人类头像任务中的质量和功能。我们的实验证明了在基于关节的 3D 模型的准确约束下,生成流水线模型在单图像的新视角合成任务上的性能改进,更重要的是,这种整合实现了面部表情和身体姿势控制在生成过程中的无缝和准确融入。据我们所知,我们提出的框架是第一个允许从未见过的单一图像创建完全 3D 一致、可动画和照片般逼真的人类头像的扩散模型;广泛的定量和定性评估证明了我们的方法在新视角和新表情合成任务上相对于现有最先进的头像创建模型的优势。
Jan, 2024
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
本文介绍了一种基于扩散模型的交互式基于点的图像编辑框架 DragDiffusion,并通过优化扩散模型潜在空间实现精确的空间控制。
Jun, 2023
本文提出了一种基于条件扩散模型的统一框架,用于图像到图像的转换,并在四个具有挑战性的图像到图像任务中测试了这个框架,即上色,修复,裁剪和 JPEG 恢复。我们的简单实现超越了所有任务上的强 GAN 和回归基线,无需任务特定的超参数调整,架构定制或需要任何辅助丢失或先进的新技术。我们揭示了扩散目标中 L2 与 L1 损失的影响,并通过实证研究证明了自我关注在神经结构中的重要性。重要的是,我们提倡一个基于 ImageNet 的统一评估协议,具有人工评估和样本质量得分(FID,Inception Score,预训练 ResNet-50 的分类准确度和与原始图像的感知距离),我们期望这个标准化的评估协议在推进图像到图像翻译研究方面起到作用。最后,我们展示了一个通用的,多任务扩散模型的执行效果与任务特定的专家模型相当或更好。
Nov, 2021
通过在预训练的自编码器的潜在空间中应用扩散模型,引入交叉注意力层到模型体系结构中,以更少的计算要求取得接近最优的性能,实现高分辨率合成,缩小像素级 DMs 对计算资源的需求。
Dec, 2021
基于条件扩散模型的 PhenDiff 方法在显微镜图像中识别微小表型,优于 CycleGAN 在生成图像的质量和多样性方面,并展示了该方法在显示罕见神经发育障碍引起的隐形表型变化方面的应用。
Dec, 2023