实体级文本引导图像操作

CVPRFeb, 2023

Entity-Level Text-Guided Image Manipulation

Yikai Wang, Jianan Wang, Guansong Lu, Hang Xu, Zhenguo Li...

TL;DR本文提出了基于文本指导的实体级别真实世界图像操纵方法 SeMani，通过语义对齐和图像操纵两个阶段，使用离散自回归生成和扩散模型连续去噪生成开发了两个版本的生成过程，对 CUB，Oxford 和 COCO 数据集进行了实验验证。

Abstract

Existing text-guided image manipulation methods aim to modify the appearance of the image or to edit a few objects in a virtual or simple scenario, which is far from practical applications. In this work, we study a novel task on →

text-guided image manipulation real-world semani semantic alignment generative model

发现论文，激发创造

ManiTrans: 基于实体级别文本引导的图像操纵，通过基于记号的语义对齐和生成

本研究提出基于 transformer 的框架 ManiTrans 来实现文本引导下的实体级别图像操作，结合语义对齐模块和语义损失，成功应用于真实世界的数据集上，与基准方法相比实现更精密和灵活的操作。

Apr, 2022

基于文本的无目标图像操纵

本文提出了一个面对无监督学习的编译型操作循环一致性生成对抗网络（cManiGAN）来处理目标自由的文本引导图像操作问题，并在实验中证实了该方法在 CLEVR 和 COCO 数据集上的有效性和通用性。

Nov, 2022

ManiGAN: 文本导向的图像操作

使用生成式对抗网络实现语义编辑，用文本描述所需属性对图像进行编辑和纠正匹配，生成新的属性，同时保留无关的原始内容。在 CUB 和 COCO 数据集上的实验证明了该方法的卓越性能。

Dec, 2019

面部图像生成和操作的开放式文本引导实现

该研究提出了一种统一框架来生成和处理面部图像，基于预训练的 GAN 模型，使用两种新颖的策略，直接优化潜在空间的潜在编码以获取多模式输入的图像生成和操纵，并提出了一个大型数据集 Multi-Modal CelebA-HQ。

Apr, 2021

复杂文本指令下的交互式图像操作

本研究提出了一种基于复杂文本描述的图像编辑方法，在文本相关部分对输入的图像进行修改，并引入用户界面对生成的图像进行交互式重新修改，实现实时交互、灵活和准确的图像操作。

Nov, 2022

TediGAN: 基于文本引导的多样化人脸图像生成和操作

本文提出 TediGAN 框架，用于多模态图像生成和操作。该方法包括三个组件：StyleGAN 反演模块，视觉 - 语言相似度学习和实例级优化。模型可使用多模态输入生成多样化，分辨率为 1024 的高质量图像，并提出 Multi-Modal CelebA-HQ 数据集以支持文本引导的多模态综合。经过广泛实验，本方法展现出优越性能。

Dec, 2020

基于文本的神经运算：通过文本指令进行图像操作

本研究提出一种基于 GAN 的多模态图片编辑方法，利用自然语言指令局部修改图片特征，实现对包含多个对象的图像进行编辑，并在三个公共数据集上展示出优异的表现，包括更高的保真度和语义相关性以及更好的图像检索性能。

Aug, 2020

TextCLIP：无对抗训练的文本指导人脸图像生成与操作

提出了 TextCLIP，这是一个统一的框架，用于无对抗训练的文本引导的图像生成和操作，通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合，能够生成高达 1024×1024 分辨率的图像，并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。

Sep, 2023

文本自适应生成对抗网络：用自然语言编辑图片

本文提出一种文本适应的生成对抗网络 (TAGAN)，用以保留不相关的图片内容，并根据自然语言描述进行图像属性的语义修改。该网络通过创建词级本地判别器，按照输入的文本进行细粒度属性的独立分类，实现只修改特定区域的图像。经实验验证，该方法在 CUB 和 Oxford-102 数据集上比现有方法表现更好。

Oct, 2018

学习操控艺术图像

本文提出了一种基于任意风格图像操作网络（SIM-Net）的方法，该方法利用无语义信息作为指导并采用自我监督策略中的区域传输策略进行图像生成。定性和定量实验证明了我们的方法相较于现有方法的优越性。

Jan, 2024