- 多模态引导下的图像编辑与文本到图像扩散模型调查
图像编辑以满足用户特定需求为目标,近年来作为人工智能生成内容 (AIGC) 领域的一项有前景且具有挑战性的研究得到广泛关注。本篇综述针对利用文本转图像扩散模型进行多模态引导的图像编辑技术进行了全面回顾,介绍了综合的图像编辑范畴、各种控制信号 - 利用变分评分保留身份的通用三维编辑
利用扩散模型,提出了一种名为 Piva(保留身份的变分得分馏分)的新颖的基于优化的图像和三维模型编辑方法,旨在解决已有方法中存在的细节丢失和过饱和等问题,通过额外的得分馏分项保持了原有特征,成功地改变视觉属性、添加结构元素、转换形状,并在标 - 零摄像头参考模仿的图像编辑
这篇论文介绍了一种新的图像编辑方法,称为模仿编辑,通过使用图像参考来帮助用户更方便地发挥创造力,提出了一种生成训练框架 MimicBrush,能够自主学习图像间的语义对应关系,实验证明了该方法在各种测试案例中的有效性和优越性,并构建了一个用 - 激发视觉创造力:图像编辑建议的视觉语言助手
该研究论文介绍了图像编辑推荐任务,通过 Creativity-Vision Language Assistant 的训练和编辑指令数据集的提供,实现了从输入图像和简单提示生成多样创意编辑指令的目标。通过引入新颖的 ' 用于本地化的标记 ' - I2VEdit: 通过图像到视频扩散模型进行首帧引导视频编辑
通过使用预训练的图像到视频模型,我们介绍了一种新颖而通用的方法,将图像编辑工具的适用范围扩展到视频中,通过从单个帧到整个视频的传播编辑来处理全局编辑,局部编辑和适度形状变化,并且通过细粒度的注意力匹配来实现精确的调整,同时采用跳跃间隔策略来 - CVPR最少:基于本地文本的图像风格迁移
本研究通过文本描述实现了基于文本条件的风格转换,评估了文本条件图像编辑和风格转换技术对精确 “局部” 风格转换的细粒度理解,发现当前方法在有效完成局部风格转换方面存在问题。因此,我们设计了一个端到端的流程,根据用户的意图,确保局部风格转换的 - EditWorld: 模拟世界动力学用于指导图像编辑
通过引入一项名为 EditWorld 的新编辑任务,本研究通过使用预训练模型在新的图像编辑数据集上进行训练,并采用设计的后期编辑策略来提高指令跟踪能力,从而显著优于现有的编辑方法,以实现由世界情景提供的图像编辑指令的理解和模拟。
- InstaDrag: 从视频中出现的快速准确基于拖动的图像编辑
InstaDrag 是一个快速方法,通过将拖拽编辑重新定义为条件生成任务,以及在训练时使用视频帧作为数据源,可以在大约 1 秒内实现高质量的拖拽式图像编辑。
- EmoEdit: 图像操作引发情绪
EmoEdit 是一个新颖的两阶段框架,由情感归因和图像编辑组成,它利用视觉 - 语言模型引入内容修改以增强情感冲击力,并通过生成编辑模型在给定图像上执行情感修改,其中情感保真度和结构完整性之间进行了平衡。此方法在定性和定量评估中表现出比现 - CVPR自定义您自己的配对数据的几轮方式
现有的图像编辑解决方案存在多个问题。尽管能够取得显著令人满意的生成结果,但一些有监督的方法需要大量成对的训练数据,从而极大地限制了它们的使用。其他的无监督方法充分利用大规模预训练的先验条件,在先验条件训练的领域中受到严格限制,在超出分布范围 - 使用分层扩散笔简化图像编辑
基于层次扩散刷子的实时图像编辑技术结合了图像编辑概念,通过精细的区域导向修改中间去噪步骤,保持输入图像的完整性和上下文,并在高端消费级 GPU 上在 140 毫秒内呈现 512x512 图像的单个编辑,从而实现实时反馈和候选编辑的快速探索。 - 学习通过首先移除图像对象来添加图像对象的绘画
通过利用分割蒙版数据集和在蒙版内修复的修复模型,我们可以实现自动逆向修复过程,将对象添加到图像中,在没有用户提供的输入蒙版的情况下,提供了一种无缝地根据文本指令添加对象的方法。
- 可控合成的可编辑图像元素
我们提出了一种促进图像的空间编辑的图像表示方法,通过扩散模型对输入图像进行编码,得到可以被用户直观编辑的图像元素,并通过扩散模型解码为逼真的图像。我们展示了该表示方法在各种图像编辑任务上的有效性,如对象调整、重新排列、拖动、去除遮挡、消除、 - MMLASER: 无需调整的 LLM 驱动的关注控制以实现高效的文本条件图像转动画
通过引入无需微调、编码语言模型驱动的注意力控制框架(LASER),我们提出了一种将语言模型与文本到图像模型相结合的新型框架,用于从单个文本输入创建高质量的动画。
- StyleBooth: 多模态指导下的图像风格编辑
给定一张原始图片,该论文介绍了一种用于图像编辑的综合框架,使用多模态指令和高质量训练数据,提供了一种方法来生成按照指令进行编辑的图片。通过整合编码的文本指令和图像范例作为扩散模型的统一条件,该方法实现了根据多模态指令对原始图片进行编辑的功能 - CVPRTiNO-Edit: 时间步长和噪声优化用于稳健扩散式图像编辑
通过对噪音模式和扩散时间步进行优化,本文提出了基于 SD 的 TiNO-Edit 方法,其能够生成与原始图像更加吻合且符合预期结果的编辑结果,同时在 SD 的潜在域中提出了一组新的损失函数来加速优化过程。
- HQ-Edit:面向基于指令的图像编辑的高质量数据集
本研究介绍了 HQ-Edit,这是一个包含约 200,000 个编辑的高质量基于指令的图像编辑数据集。通过利用先进的基础模型 GPT-4V 和 DALL-E 3,我们构建了一个可扩展的数据收集流程,收集了多样的在线示例,并使用这些示例创建了 - 基于生成式人类先验的时尚风格编辑
该研究通过使用文本描述来操纵人类形象的时尚风格编辑,探索了时尚风格编辑的任务,并提出了两个加强指导信号的方向:文本扩充和视觉参考。通过基于人类先验的生成模型和对潜在空间结构的经验发现,在时尚风格编辑领域取得了令人兴奋的新应用。
- 揭示文本 - 图像扩散模型中的文本嵌入
本文研究了文本嵌入空间,发现每个词的嵌入和其上下文相关性对学习无关的图像编辑具有重要意义,并揭示文本嵌入本身具有多样的语义潜力,通过奇异值分解来进一步揭示这一特性,这些发现对图像编辑和语义发现具有实际应用价值。
- GANTASTIC: 以 GAN 为基础的可解释方向传输在文本到图像扩散模型中的应用
通过将预训练的生成对抗网络(GAN)模型中代表特定、可控属性的方向转移至扩散模型中,GANTASTIC 提出了一种新颖的框架,既保持了扩散模型已知的生成质量和多样性,又显著增强了其进行精确、有针对性的图像编辑的能力。