本文介绍了一种基于自然语言描述和兴趣区域掩码进行本地(面向区域的)在通用自然图像中进行编辑的解决方案,利用 CLIP 预训练语言 - 图像模型指导编辑并使用扩散概率模型生成自然外观结果,以及应用扩散过程的增强进行抗击对抗攻击;通过在多个基线和相关方法上的定量和定性比较,表明该方法在整体逼真度、保护背景和匹配文本方面均优于现有解决方案,并展示了多种文本驱动的编辑应用,如添加新对象,删除 / 替换 / 修改现有对象,背景替换和图像推理。
Nov, 2021
本文提出了一种基于潜在扩散模型的工具 Diffusion Brush,用于对人工智能合成的图像进行高效的局部微调,在保留图像原始内容的同时,引入新的随机噪声模式以定位特定区域,通过与其他图像修复技术和编辑软件的比较,验证了我们这种方法的可用性和有效性。
May, 2023
通过在预训练的自编码器的潜在空间中应用扩散模型,引入交叉注意力层到模型体系结构中,以更少的计算要求取得接近最优的性能,实现高分辨率合成,缩小像素级 DMs 对计算资源的需求。
Dec, 2021
该研究将 LDM 范例应用于高分辨率视频生成中,利用图像生成器实现视频生成,利用时间维度对视频超分辨率模型进行精细调整,验证其在真实驾驶视频上的表现,且可将 LDM 应用于文本到视频模型中。
Apr, 2023
该论文研究了基于扩散模型的无条件文本驱动图像编辑方法的效率,并开发了一种新算法,可以快速学习和应用图像操作,从而提高实现应用的潜力。
FLDM 是第一个将现成的图像编辑方法融入视频 LDM 的视频编辑方法,通过在视频 LDM 中应用现成的图像编辑方法,FLDM 能够改善编辑视频的文字对齐和时间一致性。
Oct, 2023
本文介绍了一种基于扩散模型的交互式基于点的图像编辑框架 DragDiffusion,并通过优化扩散模型潜在空间实现精确的空间控制。
Jun, 2023
本文提出了一种基于条件扩散模型的语义图像编辑方法 DiffEdit,能够自动生成需要编辑的图像区域的遮罩,并利用潜在推理保留感兴趣区域的内容,该方法在 ImageNet 数据集上实现了最先进的编辑表现。
Oct, 2022
该研究提出了使用基于能量的模型(EBMs)的扩散模型的等价性,建议组成多个概率分布的方法,并提出了一个通过 LLM 引导文本生成图像生成新时尚装配和虚拟试穿的流程,其结果表明使用 LLM 生成具有全球创意和文化多样性的时尚风格并减少偏见。
调查论文对使用扩散模型进行图像编辑的现有方法进行了全面的概述,包括理论和实践方面,并从多个角度对这些作品进行了彻底分析和分类,介绍了学习策略、用户输入条件以及可以实现的特定编辑任务的组合。此外,对图像修复和扩展进行了特别关注,并探讨了早期的传统上下文驱动方法和当前的多模态条件方法,全面分析了它们的方法论。最后,讨论当前的限制并展望未来的研究方向。
Feb, 2024