基于文本的图像和形状编辑与生成:短期调研
近年来,文本到三维形状生成领域经历了大量的工作和兴趣。这篇综述报告了驱动文本到三维形状生成的底层技术和方法,并对需要的监督数据类型进行了系统分类。最后,讨论了现有方法的局限性,并勾画了未来工作的有希望的方向。
Mar, 2024
本研究提出一种基于 GAN 的多模态图片编辑方法,利用自然语言指令局部修改图片特征,实现对包含多个对象的图像进行编辑,并在三个公共数据集上展示出优异的表现,包括更高的保真度和语义相关性以及更好的图像检索性能。
Aug, 2020
该研究探讨了从文本生成 3D 形状的任务,提出了一种新的文本引导的 3D 形状生成方法,能够在形状与颜色上产生高保真匹配文本描述的形状,技术贡献包括基于词级空间转换器和循环损失的一致性措施,并引入了形状 IMLE 进行生成的多样性。
Mar, 2022
本文提出了一种基于扩散方法的稳定可控的远程感知图像编辑方法,避免了大量配对图像的使用,并且通过量化评估系统和主观评估指标表明,该方法在远程感知图像编辑方面的效果优于现有的图像编辑模型。
May, 2024
图像编辑以满足用户特定需求为目标,近年来作为人工智能生成内容 (AIGC) 领域的一项有前景且具有挑战性的研究得到广泛关注。本篇综述针对利用文本转图像扩散模型进行多模态引导的图像编辑技术进行了全面回顾,介绍了综合的图像编辑范畴、各种控制信号和编辑场景,提出了一个统一的框架来规范编辑过程,并分成两个主要算法体系,为用户实现特定目标提供了一个设计空间。另外,对于基于训练的方法,我们讨论了它们的特点和适用场景,并介绍了在不同场景下源图像注入的方案。此外,我们还回顾了将二维技术应用于视频编辑,并突出了解决帧间不一致问题的解决方案。最后,我们讨论了该领域面临的开放性挑战,并提出了潜在的未来研究方向。
Jun, 2024
通过图像重建、文本嵌入以及使用 UNet 结构和扩散模型,我们设计了一种新的文本引导图像编辑方法 Forgedit,具有强大的编辑能力,并在具有挑战性的文本引导图像编辑基准测试 TEdBench 中超越了以往的方法 Imagic,实现了最新的 state-of-the-art 结果。
Sep, 2023
该研究提出了一种基于文本到操作的模型,用于将编辑语言请求转换为一系列可解释且可区分的编辑操作,同时提出了一种操作规划算法以生成从目标图像中的伪地面真实性中可能的编辑序列。
Jun, 2021
本研究提出了一种基于复杂文本描述的图像编辑方法,在文本相关部分对输入的图像进行修改,并引入用户界面对生成的图像进行交互式重新修改,实现实时交互、灵活和准确的图像操作。
Nov, 2022
通过文本引导的三维人脸合成,从生成到编辑的统一框架,通过解耦生成几何和纹理来提高几何细节的生成效果,并利用生成几何作为纹理生成的条件,进一步提升几何与纹理的一致性结果;通过预训练扩散模型来更新面部几何或纹理以实现顺序编辑,并引入 UV 域一致性保持正则化以防止对不相关面部属性的无意更改,并提出自导向一致性权重策略以提高编辑效果与保持一致性;通过全面实验展示了该方法在人脸合成方面的优越性。
Dec, 2023
本研究提出了一种基于任意文本提示的人脸编辑方法,通过在人脸图像上施加矢量流场来表示空间坐标和像素颜色的偏移,其中流向量通过栅格化张量或隐式参数化的神经网络实现,并借助预训练的 Contrastive Language-Image Pretraining~(CLIP) 模型进行优化,实现了高度一致性和图像质量的可解释性人脸编辑结果。
Aug, 2023