- ObjectDrop:用于真实对象移除和插入的引导反事实
通过分析自我监督方法的局限性,我们提出了一种以 “反事实” 数据集为中心的实用解决方案,用于对扩散模型进行微调,实现不仅移除对象还能消除其对场景的影响,该方法在逼真的对象插入和去除方面显著优于以前的方法。
- AnyV2V:用于任何视频到视频编辑任务的即插即用框架
AnyV2V 是一个无需训练的框架,通过使用现有的图像编辑工具和图像到视频生成模型,支持各种视频编辑任务,包括基于参考样式的转换、主题驱动编辑和身份操纵,并在性能方面超越了传统方法。
- DreamSampler:融合扩散采样和得分蒸馏的图像编辑方法
通过 DreamSampler 框架,通过对正则化潜在优化的透镜,整合了逆向采样和分数蒸馏两种不同方法,实现了对图像编辑和重建的指导,从而展示了与现有方法相比的竞争性性能和新的应用。
- 扩散模型是几何评论者:使用预训练的扩散先验进行单图像三维编辑
提出一种新颖的图像编辑技术,可以在单幅图像上进行三维操作,如物体旋转和平移。通过使用在广泛的文本 - 图像对上训练的强大图像扩散模型,实现了生成具有大视角变换、高外观和形状一致性的高质量三维感知图像编辑,突破了单幅图像三维感知编辑的可能性的 - 基于扩散模型的源提示解缠的图像可编辑性增强
使用文本驱动扩散模型改进图像编辑性能,通过源提示的逆变将原始图像转化为与目标文本提示无关的潜在噪声代码,实现图像编辑的可操作性。
- DialogGen: 多模态交互式对话系统用于多轮文本到图像生成
通过将多模态大型语言模型与文本到图像生成模型相结合,提出了一种用于多轮文本到图像生成的多模态交互对话系统,同时引入了一种全面的多模态对话评估基准,以评估模型在生成准确且连贯的多模态内容上的能力,包括模态切换和输出图像的连贯性。
- InstructGIE: 通向通用图像编辑的探索
一个新的图像编辑框架,通过增强上下文学习能力和统一语言指导以提高泛化鲁棒性,利用 VMamba Block 和编辑偏移匹配策略来增强图像编辑任务的能力,并结合选择性区域匹配技术和语言统一技术来改善生成图像的质量,同时提供第一个利用视觉提示和 - 物品有价值:具有分离控制的多用途图像编辑
基于预训练的扩散模型,我们提出了一种名为 D-Edit 的框架,通过在特定物品上操作相应提示来实现多样化的图像编辑,涵盖基于图像、文本、掩膜和物品删除的四种编辑操作类型,展示了编辑结果的质量和多样性。
- LoMOE: 基于多扩散的本地化多对象编辑
通过多扩散过程,利用前景掩模和简单的文本提示,我们引入了一种用于无需预训练的多对象编辑的新框架,以使用户能够通过一次操作在图像中添加、替换或编辑多个对象,实现了高保真图像编辑。
- 基于扩散模型的图像编辑:一项综述
调查论文对使用扩散模型进行图像编辑的现有方法进行了全面的概述,包括理论和实践方面,并从多个角度对这些作品进行了彻底分析和分类,介绍了学习策略、用户输入条件以及可以实现的特定编辑任务的组合。此外,对图像修复和扩展进行了特别关注,并探讨了早期的 - 点和指导:通过统一直接操作和文本指令实现精确图像编辑
将直接操作和文本指令相结合,可实现精确图像操作。用户可以通过视觉标记对象和位置,然后在文本指令中引用它们,从而在自然语言的视觉描述性和直接操作的空间精度之间实现有益的结合。
- DiffEditor:基于扩散的图像编辑中的准确性和灵活性增强
我们提出了 DiffEditor 方法,利用图像提示和文本提示来改善细粒度的图像编辑,通过在扩散采样中引入局部组合的随机微分方程 (SDE),梯度引导和时间旅行策略,我们的方法在各种细粒度图像编辑任务中取得了最先进的性能。
- CCA:协作竞争智能体图像编辑
该研究介绍了一种新颖的协同竞争代理生成模型(CCA),利用基于多个大型语言模型的代理来执行复杂任务。该模型通过两个同等地位的生成器代理和一个判别器代理,使生成器独立处理用户指令并生成结果,而判别器评估输出并为生成器代理提供反馈以进一步改善生 - CIMGEN:有限数据下基于预训练生成模型的受控图像操纵
提出的方法通过修改语义图像来灵活地生成和编辑图像,利用预先训练的图像到图像转换 GAN 进行改进,并展示了在图像伪造和图像编辑领域中的性能和应用,以及对抗深度学习图像取证技术的有效性和开发鲁棒且可推广的图像取证工具的紧迫需求。
- 批量交互式图像编辑的一次编辑
本文介绍了一种使用 StyleGAN 作为介质的交互批量图像编辑的新方法,通过用户在示例图像中指定的编辑(例如,使面部正面),我们的方法可以自动将该编辑转移到其他测试图像,以便无论它们的初始状态(姿势)如何,它们都能达到相同的最终状态(例如 - 旋转拖拽:基于点的图像编辑与旋转扩散特征
通过利用旋转图像的特征映射,精确跟踪控制点并保证高图像保真度,我们提出了一种名为 RotationDrag 的新方法,该方法在用户意图的平面旋转图像内容方面改进了基于点的图像编辑性能,并构建了一个针对平面旋转场景的基准测试 RotateBe - 高保真基于扩散的图像编辑
扩散模型在图像生成和编辑领域取得了显著的成功。我们提出了一种创新的框架,其中包含一个修正模块,用残差特征调节扩散模型权重,以填补编辑过程中准确性的差距。此外,我们引入了一种新的学习范式,旨在在编辑过程中最小化错误传播。通过大量实验证明,我们 - AAAI去除干扰并巧妙恢复内容的可见水印消除方法
利用 Removing Interference and Recovering Content Imaginatively(RIRCI)框架,本研究提出了一种二阶段方法,旨在消除可见水印干扰并恢复背景内容,通过使用双通道网络和全局与局部上下 - AAAIHyperEditor: 通过超网络在图像编辑中实现真实性和跨领域能力
一种新颖的图像编辑方法 HyperEditor,通过利用由超网络生成的权重因子重新分配预训练的 StyleGAN2 生成器的权重,结合 CLIP 的跨模态图像 - 文本语义对齐,实现了真实属性编辑和跨域风格转换的同时能力,且在效率上得到改善 - RealCraft:关注控制:零样本长视频编辑的解决方案
在这篇论文中,我们提出了一种基于注意力控制的方法,名为 RealCraft,用于零样本编辑实际视频。通过在提示和帧之间进行对象为中心的处理,并在帧内使用时空注意力,我们实现了精确的形状编辑以及增强的一致性。我们的模型可以直接与稳定的扩散一起