潜意识画家
本文提出了一种基于潜在扩散模型的工具 Diffusion Brush,用于对人工智能合成的图像进行高效的局部微调,在保留图像原始内容的同时,引入新的随机噪声模式以定位特定区域,通过与其他图像修复技术和编辑软件的比较,验证了我们这种方法的可用性和有效性。
May, 2023
本研究采用基于自编码器的后向扩散模型和交叉注意力增强的 U-Net 来实现压缩潜在空间的图像生成,扩展了 LDMs 的创意绘画能力,包括文本条件扩展和模型重新训练,该方法使用 Wikiart 数据集进行新颖的绘画生成,并通过与原模型的直接比较表明创造力和艺术性得到了丰富的提高。
Sep, 2022
我们介绍了一种新颖的扩散变换器 LazyDiffusion,可高效地生成部分图像更新。我们的方法针对交互式图像编辑应用,其中用户使用二进制掩码和文本提示指定一系列局部图像修改。我们的生成器分为两个阶段:首先,上下文编码器对当前画布和用户掩码进行处理,以生成与待生成区域相适应的简洁全局上下文。其次,在此上下文的条件下,基于扩散的变换器解码器以 “懒惰” 的方式合成掩码像素,即仅生成掩码区域。我们的解码器的运行时间与掩码大小成比例,而我们的编码器几乎不会引入额外开销。我们证明,我们的方法在质量和保真度方面与最先进的修复方法相当,同时为典型的用户交互提供 10 倍的加速,其中编辑掩码占图像的 10%。
Apr, 2024
基于层次扩散刷子的实时图像编辑技术结合了图像编辑概念,通过精细的区域导向修改中间去噪步骤,保持输入图像的完整性和上下文,并在高端消费级 GPU 上在 140 毫秒内呈现 512x512 图像的单个编辑,从而实现实时反馈和候选编辑的快速探索。通过用户研究验证了方法和编辑系统的可行性和有效性,对比了现有技术如 InstructPix2Pix 和 Stable Diffusion Inpainting 在图像优化方面的表现。该方法在对象属性调整、错误修正和顺序提示式对象放置和操作等各种任务上表现出有效性,展示了它提升创作工作流程的多功能性和潜力。
May, 2024
本文针对扩散生成模型如何将纯噪声转化为有意义的图像进行了研究,提出了基于高维景观的动力学建模方法,揭示了不同训练数据中的场景元素所呈现的具体细节先后顺序,并提出了一种生成可解释图像变化的新方法。
Mar, 2023
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
通过在预训练的自编码器的潜在空间中应用扩散模型,引入交叉注意力层到模型体系结构中,以更少的计算要求取得接近最优的性能,实现高分辨率合成,缩小像素级 DMs 对计算资源的需求。
Dec, 2021
通过稳定的扩散实验,我们发现初始图像中的像素块倾向于生成特定的内容,我们通过修改它们可以显著影响生成的图像,这种影响只影响特定的区域,而不影响其他区域,这对于重绘任务非常有用。我们发现像素块的生成偏好主要由其值而不是位置决定,通过将具有生成用户所需内容倾向的像素块移动到用户指定的区域,我们的方法在布局到图像生成方面实现了最先进的性能,我们的结果凸显了初始图像操作在控制生成图像方面的灵活性和能力。
May, 2023
该论文介绍了一种使用预训练自编码器将图像压缩为紧凑的潜在空间的潜隐去噪扩散生成对抗网络(LDDGAN),以显著提高推断速度和图像质量,并提出了一种加权学习策略来增强多样性和图像质量。该模型在 CIFAR-10,CelebA-HQ 和 LSUN-Church 数据集上的实验结果证明了其在扩散模型中达到了最先进的运行速度。与其前身 DiffusionGAN 和 Wavelet Diffusion 相比,我们的模型在所有评估指标上都表现出了显著的改进。
Jun, 2024