FlexIT: 柔性语义图像翻译
本研究提出了一种基于任意文本提示的人脸编辑方法,通过在人脸图像上施加矢量流场来表示空间坐标和像素颜色的偏移,其中流向量通过栅格化张量或隐式参数化的神经网络实现,并借助预训练的 Contrastive Language-Image Pretraining~(CLIP) 模型进行优化,实现了高度一致性和图像质量的可解释性人脸编辑结果。
Aug, 2023
我们提出了 FlexEdit,这是一个灵活且可控的对象编辑框架,通过 FlexEdit 块在每个去噪步骤迭代地调整潜变量,解决了先前对象为中心编辑问题中存在的限制,例如由于形状差异而导致的不真实结果和对对象替换或插入的有限控制性。
Mar, 2024
本论文提出了一种新的文本引导时尚图片编辑方法 FICE,包括 GAN 反演、CLIP 模型语义信息和姿态、图片评估等多项约束,使其能够更好地控制图像合成的逼真程度,并与多种先进方法进行对比验证,结果表明 FICE 具有更强的编辑表现和高度逼真的时尚图像生成能力。
Jan, 2023
本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型,开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预,通过文本提示即可对输入的潜在向量进行修改,并引入了潜在映射器,提高了文本驱动的操作效率。实验表明该方法非常有效。
Mar, 2021
提出了一种新颖的灵活高效的可控文本到图像生成方法 FlexEControl,其核心是一种独特的权重分解策略,能够有效地整合不同类型的输入,提高了生成图像与控制之间的准确性,同时显著降低了与多模态条件相关的计算开销。相比 Uni-ControlNet,该方法在可训练参数和内存使用方面分别减少了 41% 和 30%,且能够灵活生成在多种输入条件下引导的图像。
May, 2024
提出了一种新的学习方法 iEdit,用于文本引导的图像编辑,包括数据集的自动构建、无监督损失函数和分割掩模引导编辑。该模型在 200K 个样本的数据集上进行训练,并在图像保真度、CLIP 对齐性得分和编辑生成和真实图像方面显示出优越的结果。
May, 2023
本文提出了一种名为 “Imagic” 的方法,该方法仅需要单个输入图像和目标文本,就能针对单张高分辨率的真实图像进行复杂的文本引导语义编辑,其采用预训练的文本到图像扩散模型进行柔性编辑,不需任何额外的输入或附加视图,从而展示了各个领域的高质量复杂语义图像编辑.
Oct, 2022
我们提出了一种使用 SVM 在 StyleGAN 和 CLIP 空间自适应构建编辑方向的方法,将大规模图像语料库中与文本指令相似的图像通过 CLIP 相似性检索,用 SVM 训练正负图像分类器将编辑方向表示为 CLIP 空间中的法向量,并验证其性能与 StyleCLIP 基准一致,而且不会增加计算时间。
Apr, 2023
通过图像重建、文本嵌入以及使用 UNet 结构和扩散模型,我们设计了一种新的文本引导图像编辑方法 Forgedit,具有强大的编辑能力,并在具有挑战性的文本引导图像编辑基准测试 TEdBench 中超越了以往的方法 Imagic,实现了最新的 state-of-the-art 结果。
Sep, 2023
提出了一个使用缓存优化的稀疏扩散模型推断引擎(FISEdit),用于高效的文本到图像编辑,结果表明,使用 FISEdit 可以提高推断速度至少 3.4 倍,并获得更高质量的图像。
May, 2023