基于文本的神经运算:通过文本指令进行图像操作
本研究提出了一种基于复杂文本描述的图像编辑方法,在文本相关部分对输入的图像进行修改,并引入用户界面对生成的图像进行交互式重新修改,实现实时交互、灵活和准确的图像操作。
Nov, 2022
本论文提出了能够通过自然语言指令生成目标图像的交互式图像处理系统,使用了神经网络处理潜在空间中的图像向量将源向量转换为目标向量,成功地在我们的数据集中利用源图像和操作指令生成目标图像,从而实现更可控、更实用的自然语言条件下的图像生成。
Feb, 2018
提出了一种单一的文本到图像生成和操纵的流程,其中在我们的流程的第一部分,介绍了 TextStyleGAN 这个在文本上进行训练的模型;第二部分使用预训练的 TextStyleGAN 权重进行语义面部图像操纵,并通过在潜空间中找到语义方向来完成。我们展示了该方法可以用于广泛的面部图像属性操纵,并介绍了 CelebTD-HQ 数据集作为 CelebA-HQ 的扩展,其中包含了人脸及相应的文本描述。
May, 2020
自然语言指令与图像编辑相结合,通过改进的数据增加监督信号,使模型能够优于最先进的基线技术,在细粒度物体中心编辑方面取得了显著的改进,同时还能推广到训练过程中未见过的领域。
Oct, 2023
该研究采用基于 RNN 和 GAN 的三种不同可训练模型实现了全局图像编辑,并使用 Amazon Mechanical Turk 收集文本描述用于训练这些系统,同时发现用 Graph RNN 代替 RNN 可以提高性能。
Oct, 2018
本文提出一种文本适应的生成对抗网络 (TAGAN),用以保留不相关的图片内容,并根据自然语言描述进行图像属性的语义修改。该网络通过创建词级本地判别器,按照输入的文本进行细粒度属性的独立分类,实现只修改特定区域的图像。经实验验证,该方法在 CUB 和 Oxford-102 数据集上比现有方法表现更好。
Oct, 2018
该研究提出了一种统一框架来生成和处理面部图像,基于预训练的 GAN 模型,使用两种新颖的策略,直接优化潜在空间的潜在编码以获取多模式输入的图像生成和操纵,并提出了一个大型数据集 Multi-Modal CelebA-HQ。
Apr, 2021
提出了 TextCLIP,这是一个统一的框架,用于无对抗训练的文本引导的图像生成和操作,通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合,能够生成高达 1024×1024 分辨率的图像,并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。
Sep, 2023
本文提出了一个面对无监督学习的编译型操作循环一致性生成对抗网络(cManiGAN)来处理目标自由的文本引导图像操作问题,并在实验中证实了该方法在 CLEVR 和 COCO 数据集上的有效性和通用性。
Nov, 2022
本文介绍了一种用于零样本、文本驱动外观操作的方法,利用内部数据集训练生成器,结合外部的 CLIP 模型进行损失计算,并通过生成编辑层的方式实现色彩与透明度的操作来实现高保真的自然图像和视频语义编辑。
Apr, 2022