本研究提出一种基于 GAN 的多模态图片编辑方法,利用自然语言指令局部修改图片特征,实现对包含多个对象的图像进行编辑,并在三个公共数据集上展示出优异的表现,包括更高的保真度和语义相关性以及更好的图像检索性能。
Aug, 2020
本论文提出了能够通过自然语言指令生成目标图像的交互式图像处理系统,使用了神经网络处理潜在空间中的图像向量将源向量转换为目标向量,成功地在我们的数据集中利用源图像和操作指令生成目标图像,从而实现更可控、更实用的自然语言条件下的图像生成。
Feb, 2018
本文提出了两种基于提示生成框架的简单而有效的方法,以改善基于文本的图像编辑过程中用户工程的问题,并通过定性和定量实验证明了提示在基于文本的图像编辑中的重要性以及我们的方法可以与基于参考的提示相媲美。
Jun, 2023
本文提出了一种名为 “Imagic” 的方法,该方法仅需要单个输入图像和目标文本,就能针对单张高分辨率的真实图像进行复杂的文本引导语义编辑,其采用预训练的文本到图像扩散模型进行柔性编辑,不需任何额外的输入或附加视图,从而展示了各个领域的高质量复杂语义图像编辑.
Oct, 2022
自然语言指令与图像编辑相结合,通过改进的数据增加监督信号,使模型能够优于最先进的基线技术,在细粒度物体中心编辑方面取得了显著的改进,同时还能推广到训练过程中未见过的领域。
Oct, 2023
本文介绍了一种用于零样本、文本驱动外观操作的方法,利用内部数据集训练生成器,结合外部的 CLIP 模型进行损失计算,并通过生成编辑层的方式实现色彩与透明度的操作来实现高保真的自然图像和视频语义编辑。
Apr, 2022
提出了 TextCLIP,这是一个统一的框架,用于无对抗训练的文本引导的图像生成和操作,通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合,能够生成高达 1024×1024 分辨率的图像,并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。
Sep, 2023
开发了一个基于文本的图像处理框架(TIP),可以通过自然语言作为用户友好界面来控制图像恢复过程,并通过语言的定量规范实现细粒度的指导,以达到更好的恢复性能。
Dec, 2023
本文提出了基于文本指导的实体级别真实世界图像操纵方法 SeMani,通过语义对齐和图像操纵两个阶段,使用离散自回归生成和扩散模型连续去噪生成开发了两个版本的生成过程,对 CUB,Oxford 和 COCO 数据集进行了实验验证。
Feb, 2023
该研究提出了一种统一框架来生成和处理面部图像,基于预训练的 GAN 模型,使用两种新颖的策略,直接优化潜在空间的潜在编码以获取多模式输入的图像生成和操纵,并提出了一个大型数据集 Multi-Modal CelebA-HQ。
Apr, 2021